Fondamenti di Psicometria by McGraw-Hill Education (Italy)

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 1

Capitolo

Che cos’è e a cosa serve la psicometria?

1.1 Perché si studia la statistica nei corsi di laurea in psicologia? Chissà quante studentesse e studenti di psicologia si saranno posti questa domanda. In generale, gli studenti riferiscono di essersi iscritti a un corso di laurea in psicologia perché la loro intenzione è quella di diventare degli psicoterapeuti o degli psicoanalisti, e tutto si aspetterebbero meno di dover avere ancora a che fare con la matematica, materia che con ogni probabilità ha sempre navigato in zona retrocessione nell’ideale classifica delle preferenze accademiche. Non che ci sia niente di male, intendiamoci. Forse sarà una sorpresa sapere che chi scrive la pensava esattamente allo stesso modo, e che fu un apparentemente innocuo corso di Psicobiologia dello sviluppo seguito al terzo anno di università a determinare un’inaspettata quanto convinta virata verso la ricerca, prima, e i modelli di analisi dei dati e la psicometria, poi. Nel suo percorso universitario, lo studente di psicologia trova un po’ tutte le materie che bene o male si aspettava, come Psicologia generale, Psicologia dello sviluppo, Psicologia sociale, o Psicobiologia. Sa che prima o poi arriveranno i corsi che ritiene più interessanti, ossia Psicologia clinica, Psicologia dinamica, o Psicopatologia, ma nel frattempo c’è da venire a capo di questa Psicometria – piuttosto che Statistica psicometrica o Analisi dei dati. E la domanda è quella del titolo. Tranquilli, come sottolineato da più parti (Areni, Ercolani e Scalisi, 1994; Barbaranelli e Natali, 2005; Cristante e Mannarini, 2003; Ercolani, Areni e Leone, 2008; Ercolani e Perugini, 1997; Luccio, 2005; Vidotto, Xausa e Pedon, 1996), non c’è bisogno di diventare raffinati psicometristi o sofisticati analisti di dati: l’importante è comprendere almeno i principi logici delle procedure psicometriche e statistiche, in modo da acquisire gli strumenti per valutare con la competenza che si richiede a un professionista le informazioni riportate nel manuale di un test psicologico o in un articolo di ricerca. Per questo non c’è certo bisogno di essere dei geni: basta solo un po’ di buona volontà e applicazione. E visto che tutto può accadere, chissà, alla fine questa materia potrebbe anche piacervi!

1.2 L’indagine empirica in psicologia Prendereste mai un farmaco la cui efficacia non sia mai stata effettivamente verificata con un esperimento di laboratorio? Salireste mai su un aereo per il quale non esistono prove del fatto che è davvero in grado di volare? Accettereste mai di essere condannati in un processo senza che l’accusa abbia fornito prove sufficientemente convincenti che i colpevoli siete davvero voi? No? Benvenuti nel meraviglioso mondo della scienza, allora. Esattamente come i medici, i fisici, gli ingegneri, i biologi, gli astronomi ecc., lo psicologo è a tutti gli effetti uno scienziato, e come tale non può esimersi dall’avere basi filosofiche di riferimento, metodi oggettivi di indagine, interesse allo sviluppo

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 2

Capitolo 1

Che cos’è e a cosa serve la psicometria?

della conoscenza, da una parte, e dal supportare le proprie affermazioni con prove empiriche convincenti, poiché, come sostiene Christopher Hitchens citando Euclide, “ciò che può essere asserito senza prove concrete può essere anche rifiutato senza prove concrete”. Fra tutti gli scienziati, però, lo psicologo è quello che ha il compito per certi versi più difficile: mentre infatti l’opinione pubblica nemmeno si sogna di discettare su come spaccare l’atomo, sequenziare il DNA, o costruire astronavi per viaggiare nello spazio, tutti si credono esperti di psicologia per il banale motivo che, come osserva Köhler (1940), i fenomeni psicologici appaiono familiari, scontati e facili da comprendere. Per molti, quindi, la psicologia è la “scienza della scoperta dell’acqua calda” e in fin dei conti “siamo tutti un po’ psicologi”. Niente di più falso, però. Se è vero che la ricerca in psicologia ha spesso confermato molte idee del senso comune, è altrettanto vero che in moltissimi altri casi ha invece smentito quello che in apparenza sembrava così ovvio e che per molti costituiva una certezza, come nel caso degli studi sui bias, o euristiche, di ragionamento probabilistico e dei processi decisionali (si veda a questo proposito l’eccezionale volume Pensieri lenti e veloci di Daniel Kahneman, psicologo Premio Nobel per l’Economia nel 2002). Considerate per esempio le seguenti informazioni: Linda ha 31 anni, è single, intraprendente e molto intelligente. Si è laureata in Filosofia. Come studentessa era molto interessata agli argomenti di discriminazione e di giustizia sociale, ed ha anche partecipato in una dimostrazione anti-nucleare. Che cosa è più probabile? Che (a) Linda sia la rappresentante di una banca o che (b) Linda sia la rappresentante di una banca e sia attiva nel movimento femminista? Sbagliato. Siete caduti preda di quella distorsione del ragionamento che Tversky e Kahneman (1983) hanno chiamato “fallacia della congiunzione”. Mentre infatti l’opzione “b” ci sembra più rappresentativa di Linda in quanto coerente con la sua descrizione, sul piano oggettivo è più probabile l’alternativa (a), dato che non è possibile che la congiunzione di due eventi (essere rappresentanti di banca e attivi nel movimento femminista) sia più probabile del verificarsi del singolo evento – in una scommessa sportiva, avete più probabilità di vincere se dovete indovinare il risultato di una singola partita o se dovete indovinare il risultato di due partite? (si veda a questo proposito il Capitolo 4). Köhler (1940) osservò che la quotidianità e apparente ovvietà dei fenomeni psicologici, lungi dal costituire un vantaggio in termini di immediatezza, diviene in ultima analisi un freno per l’impulso conoscitivo: gli uomini, per natura, non sono infatti portati a interrogarsi sulle cause di ciò che osservano e comprendono con facilità. Viceversa, appaiono più interessati a eventi insoliti, che deviano dalla norma e che incrinano le loro convinzioni. In generale, le ricerche partono proprio dall’aver osservato una contraddizione tra ciò che avrebbe dovuto accadere in teoria e ciò che è stato effettivamente osservato: nel caso della psicologia, l’obiettivo è quello di riuscire a dare una spiegazione e produrre previsioni affidabili del comportamento umano, e di individuare relazioni che si verifichino regolarmente tra i vari aspetti del comportamento. Il compito dello psicologo come scienziato è quello di riuscire a tradurre quella domanda che si è posto a seguito di una riflessione legata ai suoi interessi personali, o allo studio di un particolare caso singolo, o all’osservazione di qualche evento paradossale, in quella che si chiama ipotesi di ricerca. L’ipotesi di ricerca descrive quali eventi o fatti osservabili oggettivamente possano costituire la prova empirica della teoria che abbiamo sviluppato per spiegare i fenomeni osservati. Per esempio, da ricercatore e da docente universitario di psicometria mi sono posto il problema di individuare i motivi dell’apparente avversione degli studenti di psico-

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 3

Che cos’è e a cosa serve la psicometria?

Capitolo 1

logia per la statistica, tanto che insieme ad alcune colleghe (Chiorri, Piattino, Primi, Chiesi e Galli, 2009) ho provato a rispondere alla domanda “perché agli studenti di psicologia non piace la statistica”? La risposta sembrerebbe essere legata allo stile di ragionamento: come provato dai punteggi a test psicologici per la misura degli stili cognitivi, ossia delle modalità tipiche con cui gli individui elaborano le informazioni che provengono dall’esterno, gli studenti di psicologia posseggono in prevalenza uno stile di ragionamento che potremmo definire globale (o olistico), ossia più orientato a una codifica e a un’elaborazione delle informazioni come singola unità percettiva, mentre lo studio della statistica sembrerebbe richiedere un ragionamento di tipo analitico, ossia parte per parte. A sua volta, uno stile di ragionamento globale è risultato associato a punteggi più alti in misure dell’ansia e dell’atteggiamento negativo nei confronti della statistica. Le nostre affermazioni si sono quindi basate su dati raccolti mediante strumenti di misura validi e attendibili (i test psicologici) e analisi dei dati oggettive. So cosa state pensando, ma mi duole informarvi che abbiamo anche osservato che né lo stile cognitivo né l’atteggiamento nei confronti della statistica sono in relazione con il voto conseguito all’esame (Chiorri, Chiesi, Piattino, Primi e Vannucci, 2009). La spiegazione più semplice di questo risultato è che, come oramai noto nella letteratura specializzata, la riuscita accademica dipende in massima parte dalla motivazione e dalla determinazione dello studente, più che dalle sue abilità cognitive, per cui, sono spiacente, ma la vecchia scusa del “non ci sono portato” per giustificare il mancato studio con me non attacca. Nella ricerca appena illustrata si sono semplicemente osservate alcune caratteristiche delle persone e se ne è valutata la relazione, senza alcun tentativo di manipolare la situazione, e abbiamo trovato che l’ansia nei confronti della statistica potrebbe dipendere dallo stile cognitivo della persona. Però potremmo anche provare a spingerci un po’ più in là. Posto che non è realistico pensare di cambiare lo stile cognitivo di una persona, a maggior ragione nel ristretto arco di tempo di un corso, niente vieta di provare a produrre materiali didattici (libri di testo, dispense ecc.) che si adattino meglio allo stile cognitivo dello studente. Potrebbe aver senso, quindi, provare a sviluppare metodi di insegnamento che consentano una migliore comprensione dei concetti fondamentali a chi ha uno stile cognitivo di tipo globale, suddividere gli studenti in due gruppi casuali (A e B), sperimentare l’uso dei nuovi materiali nel corso per il gruppo A, e alla fine del ciclo di lezioni confrontare l’atteggiamento nei confronti della materia degli studenti del gruppo A con quello degli studenti del gruppo B, che invece hanno utilizzato materiali “tradizionali”. Differentemente dalla ricerca in cui si è valutato semplicemente il grado di associazione fra le due variabili, in questo caso gli elementi chiave della situazione (tipo di materiale didattico e assegnazione degli studenti ai gruppi) sono stati manipolati intenzionalmente per osservare gli effetti dei diversi tipi di insegnamento. Questi due esempi illustrano a grandi linee le due anime della ricerca in psicologia, ossia una ricerca di tipo correlazionale e una ricerca di tipo sperimentale. Nel primo caso ci si limita a indagare se vi è una variazione concomitante fra due o più caratteristiche così come si presentano in natura (stile cognitivo e ansia nei confronti della statistica), mentre nel secondo, mediante manipolazione intenzionale delle caratteristiche oggetto di studio e tutta una serie di altri accorgimenti metodologici, si cerca di individuare non solo una variazione concomitante, ma una relazione fra due caratteristiche in cui una è la causa (tipo di materiale didattico) e l’altra l’effetto (ansia nei confronti della statistica). Su questo aspetto torneremo nel Capitolo 9.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 4

Capitolo 1

Che cos’è e a cosa serve la psicometria?

1.3 Le variabili e la loro misura nel contesto della psicologia Si è visto come una ricerca parta dall’identificazione del problema a livello teorico e dalla successiva formulazione di un’ipotesi. Quello che prima ho omesso di dire è che un’ipotesi di ricerca per essere utile deve essere verificabile, ossia deve poter essere sottoposta alla verifica dei fatti, in modo da poterla confermare o smentire in base ai dati raccolti. Ma cosa rende un’ipotesi verificabile? Innanzitutto la possibilità di definire operativamente (od operazionalmente) le caratteristiche oggetto di studio, ossia, misurare le variabili. Poniamo, per esempio, di voler sapere se c’è una differenza sostanziale fra i voti conseguiti all’esame di Psicometria dagli studenti residenti nella città dove ha sede l’università e da quelli fuori sede. L’impresa appare relativamente facile: nel database studenti sono presenti entrambe le informazioni, per cui si tratta solo di avere accesso alle informazioni e applicare il test statistico adeguato. Ma cerchiamo di analizzare il problema un po’ più in profondità, per quanto il ragionamento che segue possa apparire ovvio. Se ci siamo posti il problema di valutare a livello statistico la differenza di rendimento fra studenti residenti e fuori sede, significa che non tutti gli studenti hanno preso lo stesso voto, ossia il voto all’esame è una caratteristica variabile. Definiamo quindi come variabile qualunque attributo o caratteristica, fisica o psichica, che assume valori o categorie diverse quando sottoposta a osservazione. Il voto all’esame di Psicometria è una variabile in quanto è una caratteristica che, almeno in teoria, varia da studente a studente. Gli studenti in questo caso costituiscono i casi o unità di analisi, che è il termine generico per indicare l’oggetto sul quale viene rilevata la caratteristica di interesse. Nelle ricerche possiamo trovare altri termini per indicare i casi, come soggetti, partecipanti, pazienti, clienti ecc. Si noti che non necessariamente le unità di analisi sono persone, ma possono essere anche animali, entità geografiche (città, regioni, stati ecc.) o temporali (giorni, mesi, anni ecc.), o qualunque cosa su cui possa essere rilevata una proprietà variabile (vedi gli esempi nella Tab. 1.1). Se nell’esempio precedente tutti gli studenti avessero preso lo stesso voto, ci saremmo trovati di fronte a una costante, cioè una caratteristica che non varia fra gli individui: vi sarebbe venuto in mente di andare a valutare se esiste una differenza fra studenti residenti e fuori sede se tutti avessero preso lo stesso voto? Ovviamente no, ma la questione è lungi dall’essere banale: la variabilità infatti è la condizione di base dell’analisi statistica. Scimmiottando Douglas Adams (1999), potremmo quindi dire che la statistica è una sorta di astronave a propulsione di variabilità:1 più variabilità riusciamo a fornire ai motori della statistica, più la statistica ci porterà lontano, permettendoci di approfondire la nostra conoscenza dei fenomeni. In quest’ottica, il concetto di variabilità è legato indissolubilmente a quello di informazione: più una caratteristica è variabile, più è informativa. Poniamo il caso che qualcuno abbia scritto sul Tabella 1.1 Esempi di unità di analisi e di caratteristiche rilevabili. Unità di analisi

Caratteristica rilevabile

Persona

Età

Animale

Posizione gerarchica all’interno del branco

Città

Numero di abitanti

Giorno

Temperatura massima

Faccio riferimento in questo caso alla Cuore d’Oro, l’astronave a propulsione d’improbabilità descritta nella serie di romanzi di Douglas Adams che prende origine da Guida Galattica per Autostoppisti.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 5

Che cos’è e a cosa serve la psicometria?

Capitolo 1

muro di uno dei bagni della facoltà una frase che esprime in modo un po’ colorito il suo scarso entusiasmo per la psicometria. Sapere che è uno studente non ci aiuta affatto, perché di fatto è una costante, almeno nella situazione della quale ci stiamo occupando. Sapere che è un maschio già ci aiuta di più, perché in genere nelle facoltà di psicologia i maschi sono circa un terzo rispetto alle femmine. Tuttavia anche una variabile come il sesso non è che differenzi molto, dato che si presenta in due soli modi. Se conoscessimo l’età, diciamo 21 anni, avremmo un’informazione in più, perché potremmo escludere tutti quelli che non hanno 21 anni: l’età è più variabile del sesso, per cui l’informazione è maggiore. Ma quanti studenti maschi di 21 anni ci sono in una facoltà di psicologia? In teoria per individuare il contestatore avremmo bisogno di una caratteristica che varia fra gli studenti al massimo grado possibile, ossia ogni modo di manifestarsi della variabile corrisponde a uno e un solo studente. No, non è il nome e cognome, come forse qualcuno di voi potrebbe aver pensato: e se ci sono dei perfetti omonimi? La variabile di cui sto parlando è il numero di matricola. Ogni studente ha il suo, e quindi ci sono tanti modi di manifestarsi della variabile quanti sono gli studenti. Sapere il numero di matricola ci permetterà quindi di identiﬁcare inequivocabilmente lo studente dal pennarello facile, per quanti omonimi possa avere. Più informativo di così…

1.3.1 Misurare in psicologia Per fornire carburante alla nostra astronave, dunque, abbiamo bisogno di raccogliere più informazioni possibili dalle variabili. E come si fa? Misurando. In questo caso consideriamo il termine “misurare” nella sua accezione più ampia (per maggiori dettagli si veda il Capitolo 1 del mio manuale Teoria e Tecnica Psicometrica, Chiorri, 2011). Per ora limitiamoci a considerare la misurazione come quel procedimento che ci permette di rilevare le modalità con cui si manifestano le variabili: per cui, è un atto del misurare utilizzare il metro per sapere quanto è lungo un tavolo, così come chiedere a una persona la marca di dentifricio che usa (Nunnally e Bernstein, 1994). Per Stanley Smith Stevens, che a cavallo fra gli anni Quaranta e Sessanta del Novecento innescò un acceso dibattito e una profonda riflessione sulla natura della misurazione, soprattutto nel campo della psicofisica (Stevens, 1946), la misurazione consiste in una serie di regole per assegnare dei simboli agli oggetti in modo da riuscire a rappresentare numericamente le quantità di attributo presenti in oggetto (quello che in gergo si chiama scaling) e stabilire se gli oggetti cadono nella stessa o in diverse categorie rispetto a un dato criterio (classificazione). Il termine “regole” indica che l’assegnazione dei numeri deve essere stabilita in modo esplicito e univoco. Un buon insieme di regole deve inoltre contribuire alla standardizzazione delle misure: una misura si dice standardizzata se le regole sono chiare e pratiche da applicare, se la sua corretta applicazione può essere appresa mediante addestramento e se l’esito della misurazione non dipende da chi la esegue. In altri termini, una volta imparato come fare, tutti dobbiamo ottenere gli stessi risultati. Un altro aspetto su cui è bene essere precisi è che non si misurano gli oggetti (persone, animali ecc.) ma i loro attributi, ossia una qualche loro particolare caratteristica. Il voto all’esame di psicometria non è una misura dello studente, ma della sua capacità di rispondere correttamente alle domande proposte. Questo implica che la misurazione necessita di un processo di astrazione: un attributo, infatti, riguarda le relazioni fra gli oggetti per quanto concerne una particolare dimensione, come per esempio l’altezza o le abilità di ragionamento logico. Uno studente con uno stile cognitivo globale e uno con uno stile

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 6

Capitolo 1

Che cos’è e a cosa serve la psicometria?

cognitivo analitico possono aver preso lo stesso voto all’esame di Psicometria, mentre due studenti entrambi con stile cognitivo analitico possono aver preso voti diversi. Gli attributi “tipo di stile cognitivo” e “voto all’esame di Psicometria”, così come qualunque altro attributo, non devono essere confusi tra loro. Non riuscire ad astrarre un particolare attributo dal contesto generale può rendere il concetto di misurazione difficile da cogliere, ma è una capacità fondamentale del futuro psicologo, perché le valutazioni provenienti dalle procedure di misurazione psicometrica sono solo parti della persona che si sta esaminando. Per cui, il fatto che una persona abbia un alto quoziente intellettivo o produca una prestazione particolarmente scarsa a un test di comprensione verbale non deve indurre a generalizzare quello che è un attributo particolare a tutta la persona. Il porre attenzione a questo aspetto ci aiuta anche a valutare con più cura la natura dell’attributo che si sta cercando di misurare. Alcuni attributi, soprattutto quelli fisici, possono essere relativamente facili da misurare, avendo a disposizione lo strumento di misura adeguato, e risultano evidenti anche all’osservazione empirica: un giocatore di basket che ci appare gigantesco, una volta misurata la sua altezza, risulterà essere alto 2,10 metri. Ma quando lo scopo è la misurazione di un attributo psicologico, le cose si fanno un po’ più complicate. Pensateci un attimo. Qualunque attributo utilizziate per descrivere una persona dal punto di vista psicologico, fate riferimento a una qualità che non potete esperire coi sensi. Come no? – potrebbe obiettare qualcuno – si vede se una persona è generosa o si sente se il suo tono di voce è ostile. Vero, ma non state considerando la caratteristica psicologica in sé, bensì il comportamento che in teoria ne è la manifestazione. Quando vedete camminare qualcuno per strada potete dire se è alto o magro perché si vede, ma non sapreste dire, per esempio, se ha uno stile di attaccamento sicuro o un’abilità di rotazione mentale degli oggetti particolarmente sviluppata. Potete forse dedurre qualcosa in questo senso da come si muove, da come si veste, dall’espressione del volto ecc., alla Sherlock Holmes, ma in nessun caso siete in grado di vedere dentro la testa di quella persona e quindi esperire con i sensi le sue caratteristiche psicologiche. Eppure le lingue sono ricchissime di aggettivi che descrivono queste caratteristiche: pensate soltanto che uno dei principali modelli di descrizione della personalità, detto Big Five o Cinque Grandi Fattori della Personalità, è stato sviluppato a partire dagli inizi degli anni Sessanta del Novecento (Tupes e Christal, 1961) e successivamente affinato fino ad arrivare alla definizione attuale (Goldberg, 1981) grazie a una serie di sofisticate analisi statistiche proprio su centinaia di aggettivi impiegati nella lingua inglese per caratterizzare le persone dal punto di vista psicologico.

1.3.2 I costrutti psicologici Le variabili psicologiche sono costrutti teorici, ossia entità ipotetiche non osservabili direttamente ma solo mediante riferimento a indicatori osservabili (che possono essere i comportamenti della persona o le misure di indici psicoﬁsiologici quali tempo di reazione, frequenza cardiaca ecc.) più o meno speciﬁci. Lo stesso discorso vale per i disturbi mentali. Quando viene posta una diagnosi di depressione, per esempio, il clinico non vede la depressione, ma rileva le sue manifestazioni osservabili, ossia un umore costantemente depresso, così come riferito dalla persona o da chi gli sta intorno, scarso interesse e piacere nello svolgere le attività quotidiane, disturbi del sonno, mancanza di energia, incapacità di concentrazione, e così via. Se quindi lo scaling, ossia il processo che consente di ottenere la misura quantitativa di una variabile psicologica, prevede l’impiego di un numero per rappresentare la quantità di attributo presente in una unità di analisi, occorre stabilire

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 7

Che cos’è e a cosa serve la psicometria?

Capitolo 1

una regola che ci permetta di mettere in corrispondenza il sistema relazionale dei numeri e quello empirico, in modo da mettere in relazione certe proprietà delle unità di analisi con le proprietà nei numeri reali e agire su questi ultimi come se si agisse sui primi (Luccio, 2005). Se questo è relativamente facile per quelle caratteristiche fisiche per le quali esistono unità e strumenti di misura, nel caso delle variabili psicologiche ciò è possibile solo quando esistano operazioni per gli oggetti o per gli eventi simili alle operazioni aritmetiche per i numeri (Carmines e Zeller, 1979). In altri termini, prima di applicare la regola che consente la quantificazione dell’attributo occorre stabilire come riuscire a tradurre in termini empirici ciò che non è osservabile direttamente. Come facciamo a misurare una variabile psicologica, quindi? Come facciamo a dire che una persona è molto intelligente, o poco estroversa, o mediamente affidabile? Nello stesso modo in cui lo facciamo nella vita di tutti giorni, solo con più rigore e seguendo un metodo ben preciso. Di base, lo scopo del processo di misurazione psicologica è quello di connettere concetti in sé astratti a indicatori empirici. Perché l’operazione abbia successo occorre una pianificazione esplicita e organizzata per classificare e quantificare i dati osservati nei termini del concetto generale nella mente del ricercatore (Carmines e Zeller, 1979). Supponiamo di voler appurare se una certa persona è un evasore fiscale oppure no: se l’individuo in questione si è dichiarato pressoché nullatente ma viaggia in Ferrari e indossa vestiti reperibili solo nelle migliori boutiques, be’, c’è qualcosa che non quadra. In pratica, deduciamo da ciò che possiede ciò che non sappiamo di lui. Allo stesso modo, quando vogliamo costruire uno strumento di misura per una variabile psicologica dobbiamo innanzitutto chiarire che cos’è che vogliamo misurare e quali possono essere gli indicatori osservabili della sua presenza nelle persone. Il primo problema da risolvere è dunque la definizione del costrutto. Sia chiaro fin da subito che senza un’accurata definizione del costrutto non è possibile costruire nessuno strumento psicometrico degno di questo nome. Volete costruire un nuovo strumento per la misura dell’intelligenza? Bene, il primo problema da risolvere è definire che cosa intendiamo per intelligenza. In questa fase dobbiamo stare attenti a non farci confondere da quelli che sono i luoghi comuni rispetto a certe caratteristiche psicologiche: da sempre, per esempio, viene identificato come intelligente chi è abile in matematica o in fisica, mentre siamo meno portati a utilizzare il termine per chi eccelle nella musica o nella pittura. Allora che cos’è l’intelligenza? A giudizio di chi scrive è un costrutto di cui non si è ancora venuti realmente a capo, proprio perché non è ancora stata fornita una definizione chiara, univoca e, soprattutto, su cui la comunità scientifica abbia trovato un accordo. L’intelligenza potrebbe anche non esistere come essenza in sé, ma questo non significa che anche solo dal punto di vista pragmatico non possiamo arrivare a definirla in modo accurato e quindi a misurarla con una procedura psicometrica adeguata. Questo dovrebbe aiutarci a comprendere come i costrutti psicologici, al pari dei disturbi mentali, possano assolvere semplicemente allo scopo pratico di dare un ordine alla complessità dei comportamenti umani, in modo non dissimile dall’aver creato una sistema di riferimento geografico basato sui meridiani e i paralleli. In teoria, quindi, purché li definiamo in modo adeguato e forniamo le indicazioni per misurarli, possiamo inventare tutti i costrutti che vogliamo. Non a caso, per esempio, esiste un costrutto detto Machiavellismo, che è la tendenza di una persona a ingannare e manipolare gli altri per interesse personale e ad avere una visione del mondo cinica e pragmatica. La teorizzazione del costrutto, con successivo sviluppo di un test psicologico per la sua misura (Mach Scale), risale alla fine degli anni Sessanta del Novecento (Christie e Geis, 1970), e fa chiaramente riferimento alla corrente di pensiero illustrata da Niccolò

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 8

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Machiavelli nel Principe. Il punto è che il costrutto non è stato “inventato” né tantomeno “scoperto”: semplicemente si è dato un nome a un insieme (pattern) particolare di comportamenti che definiscono una sorta di Gestalt comportamentale riconoscibile e osservabile, esattamente come un particolare insieme di stelle costituisce l’Orsa Minore o altra costellazione a piacere. Sia il pattern di comportamento sia la costellazione esistono in teoria da sempre: il comportamento machiavellico esisteva anche secoli prima di Cristo, almeno stando a cosa si legge ne L’arte della guerra di Sun-Tzu, così come le stelle raggruppate da Tolomeo nell’Orsa Minore erano già lì da qualche tempo. Lo stesso vale per i disturbi mentali per cui vediamo un esempio di applicazione concreto. Mattick e Clark (1998) hanno sviluppato due scale per la valutazione della fobia sociale, una legata alla fobia di essere fissati mentre si svolge una banale attività quotidiana come bere o scrivere (Social Phobia Scale, SPS) e una inerente la fobia dell’interazione sociale (Social Interaction Anxiety Scale, SIAS). Gli Autori definiscono da subito i costrutti in modo chiaro: col termine fobia sociale si riferiscono all’ansia e alla paura che le persone provano di fronte alla prospettiva di essere osservati o guardati dagli altri, in particolare mentre stanno svolgendo alcune attività di routine come mangiare, bere, scrivere, firmare, usare le toilette pubbliche, lavorare, viaggiare su un mezzo pubblico di fronte agli altri o camminare in una stanza affollata. La preoccupazione principale della persona, in queste situazioni, è quella di apparire ansiosa, timida, con dei problemi, strana, e di cominciare a tremare, ad arrossire e/o a mostrare di sentirsi a disagio. Con il termine ansia da interazione sociale, invece, gli Autori individuano il disagio nell’incontrare e parlare con gli altri, siano essi membri del sesso opposto, estranei o conoscenti. In particolare, la preoccupazione principale riguarda la paura di essere incapaci di esprimersi, di essere noiosi, di apparire stupidi, di non sapere cosa dire o come rispondere nelle interazioni sociali, e di essere ignorati. In questa sede non ci interessa se queste definizioni sono “giuste” in base a qualche criterio clinico oppure no: secondo gli Autori la misura di queste costellazioni di comportamenti e stati d’animo può aggiungere qualcosa alla valutazione (assessment) del paziente e ne forniscono una definizione netta, precisa, che aiuta a comprendere il passo successivo, ossia la “messa in pratica” delle definizioni dei costrutti. È già stata sottolineata più volte la necessità di indicare, in base alla definizione, i comportamenti che possano “rivelare” la presenza del costrutto nell’individuo. Il procedimento mediante il quale si passa dalla definizione del costrutto alla costruzione delle domande, che in gergo si chiamano item, del test è noto come operazionalizzazione.

1.3.3 L’operazionalizzazione e i modelli di misurazione Operazionalizzare un costrutto psicologico significa specificare gli elementi che legano ciò che non è direttamente osservabile all’empirico, consentendo quindi la misurazione come attribuzione di numeri (Fig. 1.1). Il primo passo verso l’operazionalizzazione di un costrutto è quindi quello di definire ciò che si chiama dominio di contenuto, ovvero l’universo di comportamenti che possono indicare la presenza del costrutto. Il compito di chi sviluppa il test psicologico è quello di individuare le migliori operazionalizzazioni possibili del costrutto e tradurle in una prova standardizzata. Quasi mai una sola operazionalizzazione è sufficiente a connotare in modo efficace un costrutto: la difficoltà o l’incapacità di utilizzare le toilette pubbliche non necessariamente è un sintomo (= operazionalizzazione) di fobia sociale; potrebbe derivare infatti anche da una preoccupazione caratteristica del disturbo ossessivo-compulsivo di essere contaminati dalle secrezioni del corpo umano. Il processo di operazio-

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 9

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Costrutto ipotetico (non direttamente osservabile)

Operazionalizzazione

Sistema relazionale numerico (SN)

REGOLA

Sistema relazionale empirico (SE)

Figura 1.1 Schema del processo di misurazione in psicologia.

nalizzazione di un costrutto deve quindi portare a “convergere” verso un insieme di contenuti specifici che individuino il costrutto in modo non ambiguo. Il processo di operazionalizzazione di un costrutto implica la definizione di quello che, nella teoria classica dei test, è un modello di misurazione. Con il termine “modello”, in generale, intendiamo l’espressione formalizzata di una teoria, il cui scopo fondamentale è quello di individuare la spiegazione più semplice possibile di un fenomeno naturale. Un modello ci aiuta a descrivere, interpretare e persino predire i fenomeni naturali. Il risvolto interessante di tutto questo è che in base all’uso che intendiamo fare del modello non c’è nemmeno bisogno che corrisponda effettivamente alla realtà. Il sistema astronomico geocentrico, finché il problema era semplicemente (si fa per dire...) quello di predire la posizione di una stella nel cielo, ha funzionato egregiamente per almeno due millenni, almeno finché i vari Galileo, Brahe e Keplero non sono arrivati a dimostrare che forse le cose, lassù nel cielo, funzionavano un po’ in un’altra maniera. Allo stesso modo, un modello di misurazione di un costrutto psicologico specifica e definisce le relazioni fra il costrutto (o variabile latente) e le sue operazionalizzazioni (indicatori osservabili o variabili manifeste). In base alla teoria di Mattick e Clark (1998), la fobia sociale può essere operazionalizzata nei comportamenti di avere paura di essere osservati o guardati dagli altri mentre si sta mangiando, scrivendo, lavorando, viaggiando su un mezzo pubblico, utilizzando una toilette pubblica ecc. Traducendo queste parole in un diagramma, otteniamo la rappresentazione del modello di misurazione riportato nella Figura 1.2. In base alla convenzione internazionale, il costrutto è rappresentato da un ovale mentre gli indicatori osservabili sono rappresentati da rettangoli. Si noti inoltre che le frecce partono dal costrutto e vanno verso gli indicatori osservabili. Questo significa che il costrutto è la causa e gli indicatori osservabili l’effetto. In altri termini, si presuppone che la paura di essere guardati mentre si mangia, mentre si scrive, mentre si lavora ecc. siano il risultato del fatto che la persona ha una fobia sociale. Questa è in qualche modo l’impostazione della psicometria classica. Charles Spearman già nel 1904 aveva ipotizzato che la risposta a un test di intelligenza fosse determinata dal fatto che la persona possedesse un certo grado di intelligenza più altri fattori, specifici e non, estranei all’intelligenza (che nella Fig. 1.2 sono rappresentati dalle “e”), e la sua teoria può essere formalizzata nella seguente equazione: x i = λi g + si dove xi è il punteggio nell’item i del test di intelligenza, g è l’intelligenza generale posseduta dalla persona, li è il peso che ha l’intelligenza generale nel determinare la

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 10

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Fobia sociale

Essere guardato mentre mangia

Essere guardato mentre scrive

Essere guardato mentre lavora

Ecc.

Stress

Divorzio

Nascita di un figlio

Lutto

Ecc.

Figura 1.2 Rappresentazione diagrammatica di un modello di misurazione della fobia sociale (modello a indicatori riflessivi) e di un modello di misurazione dello stress (modello a indicatori formativi).

risposta all’item i e si è un termine che racchiude quella parte della risposta all’item i che non è dovuta all’intelligenza. In base a questo modello, non si è intelligenti perché si risponde correttamente agli item di un test di intelligenza, ma è il possedere una certa quantità di intelligenza che ci fa rispondere correttamente all’item di un test volto a misurare l’intelligenza. La situazione è analoga a quella del voto conseguito a un esame: il modello più semplice che possiamo sviluppare è un modello in cui il voto all’esame X è determinato dalla preparazione P dello studente (come la operazionalizzereste? Pensateci…) più altri fattori estranei alla preparazione (E), che possono essere elementi penalizzanti, come per esempio l’ansia nei confronti dell’esame, o premianti, come per esempio l’aver copiato da un compagno più preparato. A livello formale la relazione può essere espressa come: X = λP + E Anche in questo caso il termine l esprime “quanto pesa” la preparazione P nel determinare il voto all’esame, che a sua volta “riflette” la presenza di una certa quantità di costrutto. Se l fosse un numero positivo, a una preparazione maggiore corrisponderebbe un voto maggiore (considerando trascurabile l’entità di E). Per questo motivo il modello di misurazione in oggetto viene definito Reflective Indicator Model (Ercolani e Perugini, 1997) o Effect Indicator Model (Bollen e Lennox, 1991). Si potrebbe obiettare che ciò che si osserva non sia sempre necessariamente l’effetto della presenza del costrutto: per esempio, nel caso di una misura dello stress, verrebbe da pensare che

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 11

Che cos’è e a cosa serve la psicometria?

Capitolo 1

quelli che sono considerati fattori di rischio, come per esempio il cambio di lavoro, un trasloco, un divorzio, la nascita di un figlio, la morte di una persona cara ecc., siano più le cause che gli effetti del fatto che la persona ottiene un alto punteggio nella misura di stress. In questo caso è l’aver vissuto o meno uno dei fattori di stress a spiegare le differenze individuali nel livello di stress, e non viceversa come nel caso di un modello a indicatori riflessivi. In questi casi si parla allora di Formative Indicator Model o Causal Indicator Model e le frecce del diagramma puntano dagli indicatori verso il costrutto (vedi Fig. 1.2). In base al tipo di modello cambia anche il nome di ciò che viene misurato: il costrutto, infatti, prende il nome di scala nel caso di un modello a indicatori riflessivi e di indice nel caso di un modello a indicatori causali. Riassumendo, una volta chiara la definizione del costrutto, mediante l’operazionalizzazione si individuano quegli indicatori osservabili che ci permettono di misurarlo in modo il più preciso e meno ambiguo possibile. A livello formale questo implica la formulazione di un modello, che altro non è che la traduzione della teoria in un diagramma e in un’equazione matematica che ci permettano di rappresentare e di quantificare, rispettivamente, la relazione fra il costrutto e ogni indicatore.

1.3.4 Le scale di misura delle variabili Abbiamo visto come ciò che riusciamo a misurare dal vivo siano gli indicatori delle variabili psicologiche. Su quali scale possiamo misurarli, però? Perché, per esempio, una variabile come il numero di risposte corrette a un questionario si pone su un piano diverso rispetto allo stato civile. Quando pensiamo al concetto di misura ci vengono subito in mente i numeri. Sappiamo quanto siamo alti, quanto pesiamo, quanti esami abbiamo superato, qual è il nostro numero di scarpe, la nostra taglia per gli indumenti, magari sappiamo qual è il nostro quoziente intellettivo. Però quando consideriamo variabili come lo stato civile, o il tipo di scuola superiore frequentata, come facciamo a utilizzare i numeri? Queste caratteristiche sono certamente delle variabili, e in teoria niente ci impedisce di indicare il liceo scientifico con 1, il classico con 2, l’istituto tecnico con 3 ecc., oppure l’essere single con 0, l’essere coniugato con 1, l’essere divorziato con 2 ecc. I numeri in questo caso però non possiedono lo stesso significato di quando li usiamo per indicare il nostro peso. Perché pesare 100 kg significa pesare il doppio di chi ne pesa 50, ma se ci è stato assegnato il numero 2 in quanto frequentatori del liceo classico siamo il doppio di cosa rispetto ai frequentatori del liceo scientifico, cui è assegnato il numero 1? Questo problema è stato affrontato e analizzato dal già citato Stanley Smith Stevens (1946), Stevens individuò quattro livelli di misura delle variabili (nominale, ordinale, a intervalli equivalenti e a rapporti equivalenti). Tali livelli consentono di realizzare procedure di analisi quantitativa progressivamente sempre più sofisticate sulle misure ottenute, ma richiedono anche operazioni di misurazione via via più complesse. Il livello di misura di una variabile determina inoltre le trasformazioni possibili sui dati.

La scala nominale La misurazione su scala nominale prevede che vengano deﬁnite delle regole per decidere se, rispetto a un certo attributo, due unità di analisi o soggetti sono uguali (equivalenti, od omogenei) o diversi (non equivalenti, o non omogenei). In altri termini,

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 12

Capitolo 1

Che cos’è e a cosa serve la psicometria?

per categorizzare o classificare. Due unità di analisi si dicono equivalenti se hanno una proprietà in comune: per esempio, sono entrambi maschi oppure entrambi single. Questo non significa che le due unità di analisi siano uguali in generale, né che siano identiche rispetto a tutta una serie di altre caratteristiche di interesse. Quindi, se Simona e Valentina hanno ricevuto il numero 1 nella classificazione della scuola superiore frequentata, significa che entrambe hanno frequentato il liceo scientifico, per cui possono essere considerate equivalenti od omogenee rispetto a questa caratteristica o variabile. Per tutto il resto, però, possono essere diversissime. Probabilmente, tuttavia, la situazione che ci è più familiare è quella relativa ai numeri di maglia dei calciatori. Il concetto di base è che nella stessa squadra, a giocatore diverso corrisponde numero diverso. Dal punto di vista pratico, però, l’uso dei numeri non è strettamente necessario. Purché a giocatore diverso corrisponda simbolo diverso, possono andare bene anche le lettere (A, B, C, D ecc.), oppure delle figure (*, #, §, @ ecc.), oppure anche il nome stesso. Qualunque strategia utilizziate per differenziare le categorie, numerica o altro, state comunque impiegando delle etichette. Queste possono essere individuali, come nel caso del numero di matricola o della maglia, oppure di gruppo, come nel caso in cui i numeri denotino l’appartenenza etnica, o il genere, o il tipo di psicopatologia. Una scala di misura nominale è contraddistinta dalle seguenti proprietà: • categorie distintive: gli elementi che appartengono a categorie differenti vengono considerati non equivalenti rispetto alla variabile; • categorie collettivamente esaustive: tutti gli elementi devono poter essere classificati in una categoria della variabile, nessuno escluso; • categorie mutuamente escludentisi: ogni elemento può rientrare in una e una sola categoria. Quando le variabili si presentano in due soli modi si dicono dicotomiche, mentre quando le loro modalità possibili sono da tre in su si dicono politomiche. Per distinguere le categorie della scala nominale possiamo utilizzare qualunque sistema simbolico di riferimento. Se utilizziamo i numeri, dobbiamo ricordare che questi non hanno nessuna delle caratteristiche che di solito utilizziamo dei numeri, come l’implicazione di quantità o di ordine. Quindi, se il trequartista di una squadra di calcio ha il numero 10, il terzino sinistro il 3 e il portiere l’1, non significa che un trequartista è uguale a tre terzini più un portiere perché 10 = 3  3 + 1! L’unico aspetto rilevante è la differenza fra le categorie, ma non c’è alcuna relazione asimmetrica che consenta di ordinare i valori.

La scala ordinale Se è possibile assumere che vi sia una relazione asimmetrica tra i diversi modi di manifestarsi di una variabile, e poter quindi stabilire che non solo A è diverso da B, ma che A possiede una certa proprietà in misura maggiore o minore di B, allora abbiamo salito un gradino nella gerarchia delle scale di misurazione. Nelle scale ordinali, quindi, è possibile ordinare le unità di analisi dalla minore alla maggiore (o viceversa) rispetto alla quantità posseduta di un attributo, anche se non siamo ancora in grado di dire in assoluto quanto vale questa quantità, né sappiamo quale distanza intercorre fra le unità di analisi in termini di quantità di attributo posseduto.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 13

Capitolo 1

Che cos’è e a cosa serve la psicometria?

1 3

Figura 1.3 Podio di una gara.

Consideriamo la Figura 1.3. L’atleta al centro è quello che ha vinto la gara, il che significa che la sua prestazione è stata migliore di quella dell’atleta sulla sinistra, arrivato secondo, la cui prestazione, a sua volta, è stata migliore di quella dell’atleta sulla destra, arrivato terzo. Tutto quello che sappiamo è che l’atleta al centro è stato più bravo (nel senso di più abile, più forte, più veloce ecc.) di quello sulla sinistra, che a sua volta è stato più bravo di quello sulla destra. Pensiamo al caso di una gara di ciclismo: ai Campionati del Mondo, che è una gara unica, conta arrivare primi, indipendentemente dal fatto di vincere con un distacco di un minuto o di mezza ruota. Al Giro d’Italia, invece, arrivare con un minuto piuttosto che con un secondo di distacco in una tappa può fare la differenza in termini di classifica finale, indipendentemente dal piazzamento. Quando le variabili vengono misurate su scala ordinale, l’informazione relativa al distacco non è disponibile. Si sa solo il rango di una unità di analisi, ossia la sua posizione in classifica. L’esempio più semplice di misurazione a livello ordinale a cui possiamo pensare è quello delle variabili che presentano due sole categorie, come promosso/bocciato, in accordo/in disaccordo ecc. Se si utilizza una codifica di tipo numerico per le variabili dicotomiche, è convenzione assegnare il punteggio 1 alla categoria che indica la presenza di qualcosa, e 0 l’assenza. Tipicamente, si assegna 1 al gruppo dei pazienti, cioè degli individui in cui si rileva la presenza di una psicopatologia, e 0 a quello della popolazione generale, in cui la psicopatologia è assente. In questi casi l’ordine rappresenta la variabile teorica sottostante: i pazienti posseggono il disturbo più della popolazione generale, così come i promossi sono più abili o bravi dei bocciati o l’essere d’accordo indica un favore verso l’affermazione maggiore del non esserlo. Nondimeno, se abbiamo bisogno di variabilità delle risposte per far viaggiare l’astronave della statistica, le variabili dicotomiche non forniscono molta informazione. Pensiamo al caso del grado di accordo con l’affermazione: Studiare la statistica è inutile Nel caso di una risposta di tipo dicotomico avremo d’accordo/in disaccordo, ma niente vieta che l’accordo venga espresso su una scala a 5 punti dove 1 = per niente d’accordo, 2 = poco d’accordo, 3 = mediamente d’accordo, 4 = abbastanza d’accordo e 5 = completamente d’accordo. Questo consentirà una maggiore dispersione (ossia, variabilità) delle risposte. Nondimeno, se Valentina risponde 4 e Simona 5, che cosa possiamo dire? Intuitivamente, che Simona è più d’accordo con l’affermazione rispetto a Valentina, anche se non sappiamo di quanto, perché nelle scale ordinali non esiste unità di misura.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 14

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Se esistesse, avremmo il livello di scala superiore, e gli intervalli fra un gradino e l’altro potrebbero essere considerati uguali in termini di differenza di attributo posseduto. Quindi, se Sara ha risposto 3, la differenza di accordo che c’è fra Simona e Valentina (5 vs 4) non è necessariamente la stessa che c’è fra Valentina e Sara (4 vs 3). Come osserva Miceli (2004), però, le cose non stanno proprio in questi termini, per il semplice motivo che le risposte fornite da individui diversi sono incommensurabili. Supponendo un continuum di accordo sottostante, non è detto infatti che Valentina, Simona e Sara abbiano posto i cinque paletti del per niente, poco, mediamente, abbastanza e completamente d’accordo negli stessi punti (Fig. 1.4). Le distanze fra i vari gradi di accordo non sono le stesse per tutte e tre le ragazze, tanto è vero che il 4 di Valentina corrisponde circa al 3 di Simona e addirittura è inferiore al 3 di Sara! In realtà, vedremo, nella maggior parte dei casi di questo tipo si assume che le distanze fra i punti siano equivalenti, e che i punti di ancoraggio del “per niente” e del “completamente” siano gli stessi per tutti i soggetti, anche se, come fa notare sempre Miceli (2004), tale assunzione può essere tutt’altro che corrispondente alla realtà del fenomeno. Il problema della misurazione a livello ordinale è che possono esistere scale tutte classificabili come ordinali, ma non necessariamente analoghe da un punto di vista concettuale. Supponiamo che vi venga chiesto di mettere in ordine, dalla preferita in assoluto (1) alla meno preferita (5), le seguenti località come meta della vostra prossima vacanza: Parigi, Casablanca, New York, Tokyo, Sidney. La misurazione in questo caso è senza dubbio a livello ordinale: supponendo un’assegnazione dei numeri del tipo 1 = New York, 2 = Sidney, 3 = Tokyo, 4 = Casablanca, 5 = Parigi, il numero veicola l’informazione relativa al rango, e non possiamo sapere quanto New York è preferita in più rispetto a Sidney, né sappiamo se è la meta in assoluto preferita da chi ha risposto – magari preferiva andare a Mosca, ma questa non era tra le alternative. Sia questa classifica delle mete delle vacanze sia l’accordo con l’affermazione visto prima possono essere considerate scale ordinali, ma vi sembrano proprio la stessa cosa? Kampen e Swyngedouw (2000) hanno considerato attentamente il problema del determinare se una scala di misura è ordinale oppure no, e hanno concluso che possono esistere cinque diversi tipi di scale ordinali. Il tipo 1 è indicato come variabile metrica categorizzata con soglie note, e corrisponde alla categorizzazione di una variabile sottostante misurabile di tipo metrico (ossia, che possiede un’unità di misura), con riferimento alle sue unità. Per esempio, la classificazione del reddito annuo in tre classi ordinate di cui è nota la soglia di divisione: Classe 1: 0-20 000 euro; Classe 2: 20 000-40 000 euro; Classe 3: > 40 000 euro. In questo caso la variabile sottostante è metrica (potremmo anche conoscere il reddito

Valentina 1

Simona 1

Sara Disaccordo

Accordo

1 = per niente d’accordo, 2 = poco d’accordo, 3 = mediamente d’accordo, 4 = abbastanza d’accordo, 5 = completamente d’accordo

Figura 1.4 Ipotetiche distanze fra i vari gradi di accordo in tre diversi soggetti.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 15

Che cos’è e a cosa serve la psicometria?

Capitolo 1

annuo di una persona in modo molto preciso, fino ai centesimi di euro), e sono noti i valori che separano le categorie. Il tipo 2, variabile metrica categorizzata con soglie non note è analogo al tipo 1, ma non sono noti i punti di soglia perché non si fa riferimento alle unità della variabile sottostante: per esempio, reddito basso, medio, alto. Il tipo 3, variabile latente categorizzata con soglie non note, invece, indica la categorizzazione di una variabile sottostante metrica non misurabile, per la quale la classificazione può essere realizzata solo grazie all’accordo di individui, in genere esperti addestrati a farlo, sull’individuazione delle categorie ordinate. Per esempio, la comunità psichiatrica può aver stabilito dei criteri per classificare come bassa, moderata o alta la gravità di un disturbo. Il tipo 4, variabile discreta semi-standardizzata con categorie ordinate, è una variabile ordinale per la quale non può essere individuata una variabile sottostante metrica e in cui la classificazione può essere realizzata solo grazie all’accordo degli individui sull’individuazione di categorie ordinate. Per esempio, i medici che classificano le persone intossicate da un gas velenoso come morte, con danni permanenti, con danni temporanei o prive di danni. Il tipo 5, infine, variabile discreta non standardizzata con categorie ordinate, è una variabile ordinale per la quale non può essere individuata una variabile sottostante metrica e il riferimento a uno standard oggettivo è impossibile. L’esempio che portano Kampen e Swyngedouw (2000) è proprio quello della classificazione dei livelli di accordo con diverse affermazioni. Al di là delle specificazioni, la scala ordinale rappresenta un po’ un ibrido delle scale di misura, perché il fatto che le categorie abbiano un ordine convoglia una quantità di informazione maggiore che non il livello di misura nominale, dove l’ordine non c’è, mentre dall’altra parte si pone il problema di stabilire se esiste o meno una variabile sottostante di riferimento che possieda un’unità di misura. In generale, comunque, l’informazione a livello ordinale ci permette di sapere solo se un’unità di analisi è maggiore, uguale o minore di un’altra rispetto all’attributo misurato, senza che possiamo dire di quanto. Come nel caso delle scale nominali, non siamo obbligati a utilizzare i numeri come etichette per le categorie, ma in questo caso abbiamo il vincolo che la codifica alternativa ci permetta di mantenere l’ordine fra di esse. Quindi, vanno ancora bene le lettere (A, B, C, D ecc.) oppure i simboli, a patto che possano essere ordinati per qualche caratteristica (dal più scuro al più chiaro, dal più piccolo al più grande ecc.). In questo senso, potreste scegliere di andare a vedere il film che il critico cinematografico del giornale ha classificato con 4 stelle ragionevolmente convinti che sia migliore del film che ne ha ricevute solo 2, oppure che se ai saldi invernali è rimasta solo la taglia S del maglione che avevate visto è inutile acquistarlo perché vi andrebbe piccolo, dato che avete la taglia M. In questi casi sapete che qualcuno o qualcosa è meglio/peggio di qualcun altro o qualcos’altro, ma non potreste dire di quanto.

La scala a intervalli equivalenti Nel momento in cui siamo in grado di stabilire un’unità di misura – qualunque essa sia – non abbiamo solo l’informazione relativa all’essere uguale o diverso e maggiore o minore, ma diventa nota la distanza fra un punteggio e un altro. In altri termini, possiamo determinare la quantità di attributo che separa due punteggi. Quello che

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 16

Capitolo 1

Che cos’è e a cosa serve la psicometria?

°C

373 363 353 343 333 323 313 303 293 283 273 263 253 243 233 223 213 203 193 183 173

100 90 80 70 60 50 40 30 20 10 0 –10 –20 –30 –40 –50 –60 –70 –80 –90 –100

°F 212 194 176 158 140 122 104 86 69 50 32 14 –4 –22 –40 –58 –76 –94 –112 –130 –148

Temperatura di ebollizione dell'acqua

58 °C Maggiore temperatura esterna mai registrata (El Azizia, Libia, settembre 1922) 37 °C Temperatura corporea media 0 °C Temperatura di solidificazione dell'acqua

289 °C Minore temperatura esterna mai registrata (Vostok, Antartide, luglio 1983)

Figura 1.5 Scale termometriche.

ancora non sappiamo è la quantità assoluta di attributo posseduta dall’unità di analisi. L’esempio più classico di scala a intervallo sono le scale termometriche (Fig. 1.5). Nella scala Celsius (°C), che come le altre prende il nome dal suo ideatore (Anders Celsius, 1701-1744), il grado, cioè l’unità di misura, rappresenta la centesima parte della differenza fra la temperatura di passaggio dallo stato solido a quello liquido dell’acqua (indicata con 0 °C) e quella di passaggio dallo stato liquido a quello gassoso (100 °C). In base alla deﬁnizione, la differenza di temperatura che c’è fra 5 °C e 10 °C è la stessa che c’è fra 50 °C e 55 °C. Ossia, a scarti uguali fra i valori corrispondono differenze uguali nella quantità di attributo posseduto. Non possiamo però dire che se oggi ci sono 10 °C e ieri ce ne erano 5 °C, oggi è il doppio più caldo di ieri. Perché? Perché il valore zero non indica la completa assenza dell’attributo, ossia non è quello che in gergo si chiama zero assoluto, ma è invece uno zero relativo. Infatti, sappiamo bene come le temperature possano andare anche sotto lo zero, e non per questo possiamo supporre l’assenza di calore. Quindi ha perfettamente senso, se siete in montagna, che oggi sia più caldo di ieri poiché ieri c’erano 10 °C e oggi ce ne sono 5 °C. La mancanza di uno zero assoluto è ciò che distingue la scala a intervalli da quella a rapporti, di cui si parlerà nel prossimo paragrafo. L’arbitrarietà dello zero fa sì che il rapporto fra i valori non sia invariante rispetto al cambio di scala di misura. Nella scala Fahrenheit lo zero corrisponde alla temperatura più bassa che Daniel Gabriel Fahrenheit (1686-1736) era riuscito a ottenere nel suo laboratorio, mentre con 96 gradi era stata indicata la temperatura corporea di una persona umana sana. In questa scala, il punto di congelamento dell’acqua è di 32 °F, mentre il punto di ebollizione corrisponde a 212 °F, da cui la dizione di scala centottantigrada. Le formule per trasformare i gradi Celsius in Fahrenheit e viceversa sono rispettivamente: °F = 32 + 1,8  °C

°C = (°F  32)/1,8

Se trasformiamo 10 °C e 5 °C in gradi Fahrenheit, otteniamo 50 °F e 41 °F, che non sono l’uno il doppio dell’altro. Eppure la temperatura è la stessa! Nel caso della temperatura, l’affermazione “oggi è il doppio più caldo di ieri” è coerente con la deﬁnizione “oggi c’è il doppio di attributo posseduto di ieri” solo nel

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 17

Che cos’è e a cosa serve la psicometria?

Capitolo 1

caso della scala ideata dal fisico e ingegnere britannico William Thomson (1824-1907), primo barone di Kelvin (da cui il nome), poiché in questo caso lo zero indica proprio assenza di calore, ossia un valore al di sotto del quale l’attributo non può scendere. Tale valore corrisponde a  273,15 °C. Il grado Kelvin (K) è definito come 1/273,16 della temperatura termodinamica del punto triplo dell’acqua, dove per “temperatura termodinamica del punto triplo dell’acqua” si intende la differenza di temperatura fra lo zero assoluto ( 273,15 °C) e il punto triplo dell’acqua (0,01 °C). La psicometria rappresenta il campo di applicazione principe delle scale a intervalli equivalenti. Abbiamo già accennato di come i punteggi ai test psicologici, infatti, non possono essere interpretati in assoluto, ma solo in relazione al punteggio di una popolazione di riferimento. In questo senso, avere 130 come punteggio di quoziente intellettivo assume un senso solo nel momento in cui sappiamo che la media della popolazione è 100 e che circa i due terzi della popolazione hanno un punteggio compreso fra 85 e 115. In teoria, quindi, possiamo assumere che la distanza in intelligenza fra due individui che hanno un punteggio di 115 e 110 sia la stessa che sussiste fra due individui che hanno un punteggio di 100 e 95. Nondimeno, non possiamo affermare che chi ha un punteggio di 130 è il doppio più intelligente di chi ha un punteggio di 65: infatti, se utilizzassimo una scala di misura diversa, in cui la media della popolazione è zero e i due terzi della popolazione hanno un punteggio compreso fra +1 e 1, i valori 130 e 65 corrisponderebbero a +2 e 2, che non rispetterebbero più la condizione di essere l’uno il doppio dell’altro. Soprattutto nel caso dei punteggi ai test psicologici, che dovrebbero rappresentare la quantificazione di un costrutto, cioè qualcosa di non osservabile, l’assunzione dell’assenza dell’attributo non è teoricamente né empiricamente sostenibile. Come facciamo a dire che una persona ha “completa assenza di estroversione”, piuttosto che “mancanza assoluta di attitudine per la matematica”? Sono affermazioni che iperbolicamente possiamo anche usare nel linguaggio comune, ma dal punto di vista scientifico, non essendo di fatto verificabili, non hanno alcun senso. Una diatriba perennemente aperta fra gli psicologi è quella relativa alla considerazione delle scale di risposta a più punti, come quella di accordo che abbiamo visto nel paragrafo precedente. Di fatto sono ordinali, ma nella pratica di analisi dei dati sono considerate a intervalli. Thurstone (1928) suppose che l’accordo con un’affermazione su una scala da 1 = per niente a 5 = completamente d’accordo potesse essere quantificato in base all’unità di misura “la quinta parte della differenza di accordo fra l’essere completamente d’accordo e per niente d’accordo”. In questo senso tali scale, di per sé ordinali, diventano a intervalli in quanto dotate di unità di misura. Non tutti gli Autori sono d’accordo con questa posizione, ma resta il fatto che nella pratica dell’analisi dei dati questi tipi di punteggi vengono considerati come misurati su scale a intervalli equivalenti. Del resto, la misura per eccellenza, ossia il metro, non è forse la “quarantamilionesima parte del meridiano terrestre”?

La scala a rapporti equivalenti La scala a rapporti equivalenti ha le stesse caratteristiche della scala a intervalli equivalenti, con la differenza che il valore zero può essere interpretato in termini assoluti, ossia come effettiva assenza dell’attributo misurato. Nunnally e Bernstein (1994) indicano lo zero delle scale a intervalli come “ragionevole” (reasonable), mentre chiamano quello delle scale a rapporti “razionale” (rational): il primo caso, come abbiamo

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 18

Capitolo 1

Che cos’è e a cosa serve la psicometria?

visto, è quello dei punteggi ai test psicologici, nei quali il valore zero o assume un significato solo come media della popolazione di riferimento per i punteggi a quel test, oppure fornisce semplicemente un’indicazione di massima rispetto al costrutto che si sta misurando. Si potrebbe osservare, infatti, che non rispondere correttamente a nessuna domanda di un test di profitto in psicologia sociale comporta un punteggio di zero che è assoluto, non relativo a una popolazione di riferimento. In effetti, la variabile numero di risposte corrette è una variabile misurata su scala a rapporti, esattamente come lo sono tutte quelle che Marradi (1981) chiama unità di conto, ossia variabili discrete (non continue, per cui i loro valori osservabili sono solo quelli dei numeri naturali) il cui valore è determinato contando (numero di figli, numero di esami superati ecc.). Dal punto di vista psicometrico, però, considerare lo zero assoluto di “numero di risposte corrette” come uno zero assoluto del costrutto “conoscenza della psicologia sociale” sarebbe errato, perché non possiamo sapere se lo studente sia in grado di rispondere ad altre domande, o a domande più facili. In altri termini, commetteremmo l’errore di considerare un indicatore osservabile come misura perfetta del costrutto sottostante. In psicologia, una delle più comuni variabili misurate su scala a rapporti è il tempo di reazione. In questo caso esiste uno zero assoluto che è anche uno zero fisico: non si può avere un tempo di reazione a uno stimolo luminoso inferiore allo zero, per il semplice fatto che il timer viene attivato solo dopo che lo stimolo è comparso – anche se in alcuni software viene registrata anche l’eventuale risposta anticipata, per cui si arriva all’assurdo logico di tempi di reazione negativi. Quindi, se Valentina ha un tempo di reazione allo stimolo di 600 ms, Simona di 300 e Sara di 900, possiamo dire non solo che Simona è stata più rapida di Valentina come questa è stata più rapida di Sara (equivalenza degli intervalli), ma anche che Simona è stata il doppio più rapida di Valentina e il triplo di Sara. Sempre per dirla con Marradi (1981), in questo caso stiamo considerando unità di misura, ossia variabili continue ottenute mediante l’impiego di uno strumento di misurazione, i cui valori osservabili, al netto di deficienze nello strumento, possono essere tutti quelli dei numeri reali positivi. Nel caso del tempo di reazione l’unità di misura è il secondo, che tradizionalmente viene definito in termini di rotazione terrestre, come 1/86 400 del giorno solare medio. La presenza dello zero assoluto fa sì che le variabili misurate su scala a rapporti mantengano la costanza del rapporto anche in presenza di trasformazioni di scala di misura, differentemente dalle scale a intervalli. Infatti, se io sono alto 182 cm e il mio nipotino 91 cm, posso dire di essere il doppio più alto perché se anche trasformassi le altezze in base al sistema anglosassone dei piedi e dei pollici, otterremmo che io sono alto sei piedi e il mio nipotino tre (un piede, foot, corrisponde a 30,48 cm). La Tabella 1.2 riassume le principali caratteristiche delle scale di misura.

1.4 I test psicologici come strumenti per far emergere i costrutti Nel paragrafo precedente abbiamo visto il modello teorico di riferimento classico per la misura delle variabili psicologiche. Ora però vi starete chiedendo come si fa concretamente a misurare un costrutto. Perché d’accordo che il comportamento di una persona dovrebbe riﬂettere il fatto che possieda o meno una certa caratteristica, ma non è realistico pensare di misurare la sua estroversione o la sua capacità di memorizzare i numeri solo osservandola e aspettando che prima o poi metta in atto i comportamenti che abbiamo individuato come operazionalizzazioni dell’attributo.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 19

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Tabella 1.2 Principali caratteristiche delle scale di misura di Stevens (1946). Scala

Operazioni fondamentali

Trasformazioni possibili

Esempi

Nominale

Uguale vs diverso, equivalente vs non equivalente, omogeneo vs disomogeneo

Sostituzione di un’etichetta con un’altra (transcodifica): 1 =*, 2 = #, 3 = §, 4 = @ ecc.

Genere, stato civile, regione di provenienza, professione, diagnosi psichiatrica

Ordinale

Maggiore, uguale o minore

Trasformazioni monotone strettamente crescenti, mantengono l’informazione sull’ordine: 1 = A, 2 = B, 3 = C, 4 = D ecc.

Titolo di studio, livello socio-economico, taglia dei vestiti, posizione in graduatoria

Intervalli equivalenti

Addizione e sottrazione

Trasformazioni lineari (o affini) del tipo y = a + bx, per esempio °F = 32 + 1,8  °C

Punteggio totale in un test psicologico, scala termometrica °C

Rapporti equivalenti

Tutte

Trasformazioni moltiplicative (o di similarità) del tipo y = bx, per esempio altezza in centimetri = 30,48  altezza in piedi

Età, tempo di reazione, numero di risposte corrette al test, scala termometrica K

Nel caso della misura in psicologia il riferimento a un modello teorico è solo il primo passo. Perché se vogliamo misurare l’autostima o l’attitudine a essere un leader abbiamo bisogno di uno strumento che ci permetta di misurare con precisione ciò che vogliamo misurare e quella cosa lì soltanto, che la misura sia ripetibile nel tempo qualora si renda necessario, possegga le caratteristiche che la rendano valida in senso lato e che ci permetta di stabilire relazioni significative con altre misure. Se poi sono state individuate delle norme che descrivono i punteggi ottenuti dalla/e popolazione/i di interesse, lo strumento si dice standardizzato. Tutto ciò rende il test una misura oggettiva del costrutto, che dovrebbe permettere di superare le valutazioni e i giudizi soggettivi: uno dei principi fondamentali della scienza è che qualunque affermazione sulla natura realizzata da uno scienziato debba essere verificabile indipendentemente dagli altri scienziati. Se non esistesse una misura oggettiva di intelligenza, due psicologi dello sviluppo che stanno svolgendo l’assessment di un bambino potrebbero non essere d’accordo nello stabilire se c’è o meno un ritardo mentale. È vero che i due psicologi potrebbero non condividere la definizione di intelligenza da cui si è partiti per sviluppare il test utilizzato, ma se il test possiede le caratteristiche elencate in precedenza rappresenta comunque un punto di riferimento adeguato per lo scopo dell’assessment. Le critiche alla teoria freudiana, per esempio, si concentrano spesso proprio sulla mancanza di procedure per l’osservazione e la quantificazione oggettiva di attributi come energia libidica, Super-io ecc. Viceversa, un certo punteggio ottenuto a un test di intelligenza standardizzato veicola la stessa informazione per tutti, senza ambiguità. I risultati numerici ottenuti mediante le misure standardizzate posseggono due principali vantaggi. Innanzitutto permettono una maggiore precisione e un maggiore dettaglio nella misura dell’attributo: per esempio, il Severity Indices of Personality Problems (SIPP-118, Verheul, Andrea, Berghout et al., 2008) permette di valutare la severità

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 20

Capitolo 1

Che cos’è e a cosa serve la psicometria?

delle componenti chiave del funzionamento maladattivo di personalità che è alla base dei disturbi della personalità. Se quindi lo strumento viene utilizzato per l’assessment di un individuo, il risultato finale non sarà tanto lo stabilire se la persona ha o non ha un disturbo di personalità, ma quanto il disturbo può essere grave se risulta presente o quanto la persona può essere a rischio se risulta assente. Anche a livello pratico i vantaggi sono evidenti: è possibile per esempio stabilire un ordine di priorità fra gli utenti di un servizio di salute mentale in base alla severità dei sintomi, si possono individuare i casi subclinici da tenere eventualmente sotto controllo, lo strumento può essere utilizzato per valutare l’effetto dell’intervento psicoterapeutico e così via, con conseguente risparmio di tempo e denaro rispetto a procedure basate, per esempio, sull’osservazione continuativa dei pazienti, che richiederebbe un lungo tempo di addestramento per gli operatori e comunque difficilmente riuscirebbe a eliminare del tutto gli aspetti soggettivi della valutazione. Non secondariamente, infine, questo maggior dettaglio nella misurazione consente di rilevare una maggiore variabilità fra le unità di analisi, e quindi una maggiore quantità di informazione, che permetterà di lanciare a una potenza maggiore i motori dell’analisi statistica quando i punteggi al test verranno utilizzati a fini di ricerca. Ma come si può portare il test a un simile livello di oggettività? Innanzitutto il test deve essere in grado di far emergere la presenza del costrutto. Avrete certamente visto, in qualche film o telefilm poliziesco, il modo in cui vengono rilevate le impronte digitali sull’arma del delitto. In gergo, guarda un po’, si chiamano impronte latenti, e richiedono un trattamento abbastanza particolare per poter essere rilevate e documentate. Il test psicologico funziona in modo non dissimile. Il costrutto è la caratteristica latente che deve essere rilevata, per cui abbiamo bisogno di qualcosa che lo faccia emergere. Gli item che costituiscono il test sono la polvere di cui abbiamo bisogno: ogni domanda o prova, infatti, costituisce uno stimolo che dovrebbe permettere, quasi per “reazione”, l’emergere del costrutto. Non per caso una volta si parlava di reattivi mentali, una terminologia oggi un po’ in disuso ma che ben illustra il principio di funzionamento di un test psicologico. Per fare un altro esempio tratto dalle scienze naturali, pensiamo alla cartina di tornasole, che è una sostanza ricavata da alcuni licheni che, quando a contatto con un’altra sostanza, ha la proprietà di colorarsi di rosso con le sostanze acide e di blu con quelle basiche, rivelando il pH di quella sostanza. Allo stesso modo, l’item del test psicologico dovrebbe permettere di rilevare, in base alla risposta fornita dalla persona, la “quantità di presenza” della caratteristica presa in esame: un item di un test di personalità ci dirà per esempio quanta estroversione l’individuo riferisce di possedere. Si osservi, a ogni modo, che in base a quanto detto precedentemente circa la necessità di una convergenza delle operazionalizzazioni di un costrutto, un item da solo non è in grado di fornire una misura adeguata di una variabile psicologica.

1.5 Come sono fatti i test psicologici In generale, possiamo dire che la misura di un costrutto è basata sull’osservazione del comportamento, inteso però in senso lato: col termine “comportamento” indichiamo qualunque reazione della persona a seguito della presentazione (o, come si dice in gergo, somministrazione) della domanda o della prova che dovrebbe permettere di rilevare il costrutto. Poniamo il caso che stiate sostenendo la prova orale dell’esame di Psicometria. Il professore vi fa una domanda, e questa domanda dovrebbe far emergere quanto conoscete della materia. La traduzione in numeri della vostra risposta in base

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 21

Che cos’è e a cosa serve la psicometria?

Capitolo 1

alla regola “migliore è la risposta, maggiore sarà il punteggio” costituirà la base per il voto che vi verrà inﬁne assegnato. Come vedremo più avanti, anche le prove di esame o i compiti che si fanno in classe possono essere considerati dei test.2 La risposta più comune che il professore si aspetta è una risposta di tipo verbale, ma in quella situazione possono essere rilevate anche tutta una serie altre informazioni – per quanto in modo non del tutto oggettivo. Se la voce dello studente è esitante o decisa avremo un’informazione su quanto si sente sicuro della risposta che sta fornendo, la contrazione di muscoli facciali che costituisce l’espressione del volto e la postura che ha assunto ci diranno quanto lo studente è teso e se la domanda l’ha o meno colto di sorpresa, e così via. Lo scopo dell’esame è la “misura” della preparazione dello studente, ma i suoi comportamenti rivelano anche altre sue caratteristiche psicologiche. Pensateci: chi dopo la domanda rimane immobile e muto comunque mette in atto un comportamento che veicola delle informazioni! Ciò che è possibile osservare del comportamento può essere raggruppato in quattro grandi categorie di misure: latenza, frequenza, durata e intensità (Ercolani e Perugini, 1997).

1.5.1 Categorie di misure in psicologia La latenza è la misura principe della psicologia sperimentale, e corrisponde all’intervallo di tempo che intercorre fra la presentazione dello stimolo e la produzione della risposta. La latenza della risposta è alla base della cronometria mentale, che è l’uso del tempo di risposta in compiti percettivo-motori per inferire il contenuto, la durata e la sequenza temporale dei processi mentali. A livello storico l’applicazione più celebre è quella di Franciscus Cornelius Donders, un oftalmologo olandese nato nel 1818 nella stessa regione che una trentina d’anni dopo diede i natali a Van Gogh e famoso, fra le altre cose, per essere stato uno dei primi a utilizzare le lenti prismatiche e cilindriche per il trattamento dell’astigmatismo. Nella storia della psicologia Donders si è guadagnato un posto in tribuna d’onore per aver sviluppato il metodo sottrattivo, che gli permise di misurare la durata dei vari stadi di elaborazione delle informazioni necessarie a fornire una risposta. Approfondimento La frequenza e la durata sono il numero di volte in cui un de1.1 terminato comportamento si presenta e la quantità di tempo in cui esso viene mantenuto. La prima misura è di particolare inte- Donders e la misura dei tempi di reazione resse quando lo scopo è una segmentazione del flusso comportamentale, e può riguardare comportamenti discreti (per es., se un neonato ha mosso un braccio o ha compiuto movimenti oculari durante il sonno) o stati comportamentali, ossia costellazioni di variabili fisiologiche e comportamentali che sono stabili nel tempo e si ripetono, non solo in un dato individuo, ma in tutti gli individui (Curzi-Dascalova e Mirmiran, 1996). In un neonato occhi chiusi, assenza di movimenti oculari e corporei (a parte l’occorrenza di sussulti e di suzione non nutritiva), respiro e attività cardiaca regolari costituiscono quello che in letteratura è noto come sonno calmo (che è l’equivalente del sonno a onde lente negli adulti), mentre occhi chiusi o semiaperti, presenza di movimenti oculari, frequenti movimenti del viso e degli arti, attività respiratoria e cardiaca irregolare caratterizzano il cosiddetto 2

Nella lingua inglese il compito in classe è effettivamente detto test, poiché to test signiﬁca anche “mettere alla prova”, “sottoporre a veriﬁca”, “esaminare”.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 22

Capitolo 1

Che cos’è e a cosa serve la psicometria?

sonno attivo (che è l’equivalente del sonno REM negli adulti). I comportamenti, accuratamente predefiniti e contestualizzati tenendo conto della continuità del flusso comportamentale, vengono registrati ogniqualvolta si verificano. L’informazione relativa alla durata può essere raccolta contemporaneamente o meno rispetto a quella relativa alla frequenza. Nelle ricerche osservative viene utilizzata quando si ha a che fare con comportamenti la cui frequenza è così alta da non poter essere gestita mediante un campionamento casuale entro un dato intervallo temporale. Si individuano unità di tempo (dette finestre temporali) che rispetto alla durata media dei comportamenti in esame risultino sufficientemente ampie, ossia la durata dell’unità di tempo deve essere più breve della più breve durata caratteristica dei comportamenti in questione. Le unità di tempo non sono contigue fra loro, ma separate da intervalli di durata fissa o variabile. La registrazione avviene soltanto all’interno delle finestre temporali. Per esempio, dopo aver stabilito quali sono i comportamenti dei bambini che corrispondono alla definizione di “comportamenti cooperativi” in un contesto ludico come può essere la ricreazione a scuola, si suddivide il tempo a disposizione per le osservazioni (per es., 30 minuti) in finestre temporali (per es., periodi di 1 minuto e intervalli di 30 secondi) e si registrano i comportamenti cooperativi che avvengono entro queste unità di tempo (Camaioni e Simion, 2004). Al pari di frequenza e durata, anche l’intensità può essere misurata a livello sia oggettivo sia soggettivo. Sotto il profilo oggettivo l’intensità di una risposta a uno stimolo doloroso può essere valutata a livello elettrofisiologico dall’entità delle modificazioni nell’elettroencefalogramma o della risposta elettrodermica. Nondimeno, è possibile anche chiedere alla persona di riferire l’entità del dolore che ha sentito mediante una scala di valutazione (rating scale) che, come si vedrà più avanti, è anche uno degli strumenti più comunemente utilizzati nella costruzione dei test psicologici. La Figura 1.6 mostra un esempio di Wong-Baker Faces Rating Scale (Wilson e Winkelstein, 2005, p. 1259), che serve per aiutare i bambini a indicare il livello di dolore che hanno provato durante un intervento medico oppure come conseguenza della loro condizione clinica. Lo stesso principio può essere applicato anche ad altri aspetti, come per esempio l’essere d’accordo o meno con una certa affermazione, oppure ad aspetti di durata o frequenza: per esempio, si può chiedere alla persona con quale frequenza ha avuto esperienza di apnee nel sonno, o quanto tempo trascorre in media in palestra ogni settimana. Abbiamo visto, però, che la misura psicologica deve possedere tutta una serie di caratteristiche per poter essere considerata oggettiva e quindi utilizzabile in ambito scientifico, sia esso clinico o di ricerca. Non sempre, poi, è facile tradurre la definizione del costrutto in operazionalizzazioni che ne colgano la complessità. In ogni caso, occorre essere abili nello scegliere lo strumento o la modalità adeguata per la misura della caratteristica in esa-

Non fa male

Fa male un poco

Fa male un po' Fa male ancora di più di più

Fa molto male

Fa maggiormente male

Figura 1.6 Esempio di Wong-Baker Faces Rating Scale. Wong-Baker FACES Foundation (2019). Wong-Baker FACES® Pain Rating Scale (http://www.WongBakerFACES.org). Originariamente pubblicato in Whaley & Wong’s Nursing Care of Infants and Children. © Elsevier Inc.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 23

Che cos’è e a cosa serve la psicometria?

Capitolo 1

me, perché non tutti i costrutti possono essere misurati altrettanto bene con qualunque tecnica. Vediamo allora più nel dettaglio che cos’è un test psicologico e come è fatto.

1.5.2 Le parti di un test psicologico Secondo la definizione della British Psychological Society (come riportata in Davey, 2014, p. 454): A psychological test is any procedure on the basis of which inferences are made concerning a person’s capacity, propensity or liability to act, react, experience, or to structure or order thought or behaviour in particular ways.3 Nella definizione dell’Australian Psychological Society (Australian Psychological Society, 1997), invece, si legge che: A psychological test is a set of standard items or stimuli, the responses to which form the basis for an inference which goes beyond item content and for which psychologists accept ethical responsibility in professional use.4 Per integrare le due definizioni, vale la pena aggiungere che un test psicologico, per essere utilizzato a scopo clinico, di valutazione e/o di ricerca, deve rappresentare una procedura sistematica nella quale le domande, le prove o gli stimoli siano presentati in una situazione controllata che permetta di raccogliere un campione di comportamento individuale rappresentativo di un costrutto definito in modo preciso ed esauriente sul piano teorico e adeguatamente operazionalizzato (vedi, per es., Pedrabissi e Santinello, 1997). Tutte queste caratteristiche concorrono a produrre un indice metrico oggettivo che rappresenti la quantità di costrutto posseduta dalla persona alla quale è stato somministrato il test, in modo che siano limitate le distorsioni dovute a elementi estranei (per es., valutazioni soggettive, tentativi di falsificazione delle risposte ecc.). Quasi sicuramente il lettore avrà già avuto esperienza di un test psicologico, per cui una certa idea di come è fatto ce l’avrà. Avrà notato che di solito il test viene presentato sotto forma di materiale stimolo, che è la parte che contiene le domande, e un foglio di notazione, che è la pagina dove vengono segnate le risposte. Molto spesso, per ragioni pratiche e/o economiche, le due parti sono riunite nello stesso foglio (Fig. 1.7). Vediamo come si presenta il materiale. In genere l’intestazione del primo foglio riporta il nome del test e i suoi autori. Questa informazione può essere omessa, o riportata solo con la sigla del test (nel caso del test nella Fig. 1.7 avremmo TIPI da Ten Item Personality Inventory), perché può essere interesse di chi somministra celare che cosa viene misurato dal test. Questa pratica non ha lo scopo di ingannare la persona che compila il test, quanto di evitare, in alcune situazioni, che il sapere che cosa viene valutato possa influire sull’atteggiamento della persona nei confronti della prova. Ci sono alcuni costrutti che hanno un impatto emotivo diverso dagli altri. Se 3

Un test psicologico è una qualunque procedura sulla base della quale vengono fatte inferenze circa la capacità, la tendenza o la predisposizione di agire, reagire, vivere o di strutturare od ordinare il pensiero o il comportamento in modi particolari da parte di una persona. 4 Un test psicologico è un insieme di item o stimoli standard, le risposte ai quali formano la base per un’inferenza che va al di là del contenuto dell’item e per i quali gli psicologi accettano la responsabilità etica nell’uso professionale.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 24

Capitolo 1

Che cos’è e a cosa serve la psicometria?

TIPI Per favore, leggi le seguenti coppie di aggettivi e indica quanto ti senti descritto da ognuna di esse, anche se pensi che uno dei due aggettivi ti descriva più dell’altro. Non esistono risposte giuste o sbagliate, solo risposte personali.

Sono una persona... Estroversa, esuberante Polemica, litigiosa Affidabile, auto-disciplinata Ansiosa, che si agita facilmente Aperta alle nuove esperienze, con molti interessi Riservata, silenziosa Comprensiva, affettuosa Disorganizzata, distratta Tranquilla, emotivamente stabile Tradizionalista, abitudinaria

Completamente in disaccordo

Molto in disaccordo

Un po’ in disaccordo

Né d’accordo né in disaccordo

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

5 5 5 5 5

6 6 6 6 6

7 7 7 7 7

1 1 1 1 1

2 2 2 2 2

3 3 3 3 3

4 4 4 4 4

5 5 5 5 5

6 6 6 6 6

7 7 7 7 7

CompletaUn po’ Molto mente d’accordo d’accordo d’accordo

Figura 1.7 Esempio di presentazione del materiale stimolo e del foglio di notazione di un test nello stesso foglio. Fonte: adattato da Gosling et al. (2003), nella versione italiana di Chiorri et al. (2015).

per esempio l’essere sottoposti a una misura del supporto sociale percepito può non creare particolari problemi, il fatto di sapere che la prova che si sta per affrontare dirà quanto si è intelligenti può invece suscitare una certa ansia, soprattutto in alcune persone. Questo da una parte influirà negativamente sulla prestazione della persona e, dall’altra, diminuirà la precisione della misurazione. Quanto riterreste attendibile la misurazione della lunghezza di un tavolo eseguita con un righello da una persona agitata a cui trema la mano? Sotto all’intestazione troviamo le istruzioni, o la consegna del test. Questa parte è di fondamentale importanza, perché fornisce alla persona tutte le informazioni necessarie per la corretta compilazione del test e, spesso, alcune precisazioni volte a contenere eventuali ansie relative alla prova (nel caso della Figura 1.7, la locuzione “non esistono risposte giuste o sbagliate, solo risposte personali”). Inﬁne, viene presentato l’elenco degli item con la scala per la risposta. Questo, tuttavia, è ciò che vede la persona alla quale il test viene somministrato. Il professionista, però, deve conoscere a menadito e senza alcuna possibilità di scusa per la sua negligenza altre due parti fondamentali, ossia il manuale del test e la griglia di correzione. Il manuale del test, che viene fornito al momento dell’acquisto del materiale presso la casa editrice detentrice dei diritti dello strumento, è una sorta di carta di identità del test, dal momento che contiene la descrizione e l’elenco di tutte le caratteristiche del test necessarie al suo corretto utilizzo. Viene quindi presentata la cornice di riferimento teorica nella quale è stato sviluppato il test, la deﬁnizione del costrutto o dei costrutti che il test si propone di misurare, il resoconto delle varie fasi di costruzione dello strumento, il campione di soggetti da cui sono state derivate le norme (cioè i punteggi di riferimento per l’interpretazione dei risultati) del test, le istruzioni per la somministrazione e l’attribuzione del punteggio, e i suggerimenti per l’interpretazione dei risultati. In sintesi, il manuale del test dovrebbe

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 25

Che cos’è e a cosa serve la psicometria?

Capitolo 1

contenere tutte le informazioni necessarie a comprendere se è lo strumento che serve al professionista o al ricercatore per i suoi scopi, se il test possiede caratteristiche psicometriche adeguate, se si è in grado di utilizzarlo senza un addestramento specifico. L’aspetto cruciale, però, è rappresentato dalle istruzioni per la somministrazione: si presume infatti che tutti i risultati e i dettagli statistici riportati nel manuale, in particolare le norme, siano stati ottenuti in condizioni costanti di somministrazione, che abbiano seguito una procedura standard sempre uguale. E sarà questa la procedura alla quale chi utilizza il test in seguito dovrà attenersi, in modo da riprodurre nel modo più preciso possibile le condizioni di somministrazione riportate nel manuale. Questo aspetto è di fondamentale importanza perché variando le condizioni di somministrazione possono variare, in modo del tutto impredicibile, anche le risposte e/o le prestazioni delle persone. Quando ancora esisteva la visita di leva obbligatoria, nei famosi tre giorni, fra le altre cose, veniva somministrata una versione abbreviata di un celeberrimo test di personalità, il Minnesota Multiphasic Personality Inventory, quello dove allora c’era la domanda se vi piacciono i fiori, per intenderci. Ora, se prendete il manuale del test, difficilmente troverete indicato che le condizioni ideali di somministrazione siano rappresentate da uno stanzone di una caserma iperaffollato di diciottenni l’uno col gomito nel costato dell’altro, in un clima da gita scolastica e con un caporale fin troppo su di giri che illustra a gran voce le sue avventure galanti, come è capitato a chi sta scrivendo. Ma questo è solo un esempio estremo. Gli abusi o i malusi del test possono essere legati anche ad atti compiuti in buona fede, come dimenticare che esiste un limite temporale per la compilazione del test o somministrare solo una parte per risparmiare tempo in determinate situazioni. Il seguire scrupolosamente le istruzioni per la somministrazione non è un atto di pedanteria, ma il solo modo per mettersi nella condizione di poter confrontare i risultati ottenuti dai propri soggetti o pazienti con quelli riportati nelle norme del test: qualunque modifica venga apportata alla procedura standard non può che rendere dubbia l’interpretazione dei risultati. Sarebbe un po’ come perdere il diritto alla riparazione in garanzia degli elettrodomestici, che non viene applicata ai danni indotti da una causa esterna al prodotto o da un errore del cliente. La griglia di correzione è ormai qualcosa che il progresso della tecnologia sta per confinare nei musei, anche se gli insegnanti si trovano spesso a utilizzarla per velocizzare la correzione dei compiti. In genere consiste in un foglio di carta traslucida o trasparente dove è stampata una versione del test o, più precisamente, del foglio di notazione, con indicati i punteggi da assegnare a ogni risposta. Basta sovrapporlo al foglio di notazione in questione e immediatamente risulteranno i valori numerici da sommare per ottenere il punteggio del soggetto nel test, facilitando la correzione e lo scoring (cioè assegnazione del punteggio) del test. Da tempo sono disponibili particolari software che, grazie all’ausilio di lettori ottici o di scanner, consentono l’acquisizione di fogli di risposta preparati all’uopo (quelli dove, per intenderci, dovete riempire con la matita il pallino corrispondente alla vostra risposta) automatizzando, di fatto, l’inserimento dei dati, lo scoring delle prove, la restituzione dei dati e, in alcuni casi, le analisi statistiche. Tutte le procedure illustrate fin qui sono sempre più spesso sostituite dalla somministrazione dei test computerizzata o via internet. Questa procedura di fatto azzera i costi e i tempi di produzione del materiale e di scoring, a parte quelli legati al pagamento dei diritti d’autore. La somministrazione computerizzata favorisce in principal modo il lavoro del clinico, che può svolgere il lavoro di assessment del paziente in tempi molto più rapidi ed è facilitato anche nell’archiviazione e gestione dei dati. La somministrazione via internet, dall’altra parte, è utilissima soprattutto a scopo di ri-

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 26

Capitolo 1

Che cos’è e a cosa serve la psicometria?

cerca, perché grazie all’invio dell’indirizzo tramite e-mail e/o alla segnalazione dello stesso sui luoghi virtuali frequentati da molti utenti (per es., i forum) si raggiungono centinaia di persone in pochissimo tempo, e con costi pressoché nulli in quanto i software in genere consentono anche l’immagazzinamento dei dati raccolti. Pregi e difetti di questo metodo di somministrazione sono illustrati, per esempio, in Gosling, Vazire, Srivastava et al. (2004).

1.6 Tipi di test psicologici Stilare una tassonomia dei test psicologici è un compito che va oltre lo scopo di questa parte del volume, ma una qualche classiﬁcazione dobbiamo pur individuarla. Una delle più diffuse distinzioni è quella in test di prestazione massima (detti anche test cognitivi) e test di prestazione tipica (detti anche test non cognitivi).

1.6.1 I test di prestazione massima I test di prestazione massima sono quelli che richiedono alla persona di dare il meglio di sé e valutano abilità raggiunte o potenziali in situazioni specifiche. In questi test esiste una risposta corretta agli item e il punteggio è determinato dal numero risposte corrette o da una somma pesata delle risposte. La Figura 1.8 mostra alcuni esempi. Classici test di prestazione massima sono i test che valutano il funzionamento considerato “normale” dell’individuo (test di abilità, di profitto, attitudinali e di intelligenza) e quelli che servono per la valutazione di eventuali deficit neuropsicologici. La differenza fra test di abilità, di profitto e attitudinali è spesso abbastanza sfumata, e il loro contenuto può essere utilizzato per costruire, in base a certe impostazioni teoriche, i test di intelligenza. Per semplificare, possiamo dire che i test di abilità si propongono di misurare le capacità degli individui in specifici ambiti (verbale, matematico,

1. Completare la seguente serie numerica: 1

2. Selezionare la figura da scartare:

3. Quale delle seguenti parole è sinonimo di accidia? a. furbizia

b. indolenza

c. cattiveria

d. arsura

e. strage

Figura 1.8 Esempi di item di test di prestazione massima. La risposta all’item 1 è 121: la serie è generata moltiplicando per 3 il numero precedente e aggiungendo 1; la risposta all’item 2 è “c”, in quanto non è un poligono regolare; la risposta all’item 3 è “b”.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 27

Che cos’è e a cosa serve la psicometria?

Capitolo 1

spaziale ecc.). Queste capacità non necessariamente sono state acquisite con la formazione, per cui fanno parte delle differenze individuali. Un esempio è il Paper Folding Test (PFT), che è un test di abilità di visualizzazione spaziale (o abilità visuo-spaziale) utilizzato fin dagli anni Sessanta (Wothke e Zimowski, 1988). Tale abilità è la capacità di manipolare mentalmente figure bi- o tridimensionali. Alle persone viene mostrata la sequenza di successive piegature di un foglio di carta su cui, successivamente, viene realizzato un buco mediante un punteruolo. I partecipanti devono scegliere quale fra le figure proposte mostra come apparirà il foglio di carta bucato una volta spiegato. Per certi versi, i test di profitto sono all’opposto, in quanto si propongono di valutare il grado di acquisizione di abilità o contenuti a seguito di una formazione. I compiti in classe o le prove di esame sono l’esempio più semplice di test di profitto, e non è un caso che la psicometria trovi nella valutazione scolastica uno dei suoi campi principali di applicazione. I test attitudinali, invece, dovrebbero predire la possibile prestazione futura in un’area in cui l’individuo non ha ancora ricevuto una formazione, e sono largamente utilizzati nell’ambito della psicologia del lavoro e dalle organizzazioni per la selezione del personale. Mentre per i test di abilità e di profitto il legame fra l’item e il costrutto che dovrebbe misurare è immediato (o si ha o non si ha una certa abilità di rotazione mentale degli oggetti, o si sa o non si sa la risposta a una domanda di un compito di esame), nel caso di test attitudinali l’effettiva capacità di misurazione del test è legata alla prestazione futura dell’individuo, e quindi non è verificabile immediatamente. Un classico test attitudinale è il famigerato, almeno negli Stati Uniti, SAT (Scholastic Aptitude5 Test), sviluppato nel 1901 (!) dal College Board, un’organizzazione non-profit statunitense e ora gestito dall’Educational Testing Service (ETS), che è la maggiore organizzazione privata a livello mondiale per lo sviluppo e somministrazione di test. Il SAT consiste di tre prove: Critical Reading, Mathematics e Writing. Il Critical Reading comprende prove di completamento di frasi e di comprensione del testo; Mathematics prevede prove di algebra, geometria, statistica, probabilità e analisi; Writing prove di grammatica e di uso delle parole, compresa la stesura di un piccolo saggio. A prima vista potrebbe essere considerato un test di profitto scolastico, ma nelle intenzioni del College Board è una misura delle abilità di pensiero critico necessarie per completare con successo il percorso universitario. In pratica, quindi, dovrebbe predire se il neodiplomato che l’ha compilato riuscirà a laurearsi oppure no. Negli Stati Uniti è una necessità in quanto i candidati a entrare in una certa università possono provenire da scuole superiori con enormi differenze sul piano dei contenuti dell’insegnamento e delle disponibilità finanziare, per cui, a suo modo, è un test per così dire “democratico” in quanto, almeno in teoria, mette tutti sullo stesso piano. Per quanto riguarda i test di intelligenza, la mancata convergenza verso un definizione condivisa del costrutto fa sì che quella che nominalmente dovrebbe essere la stessa cosa viene misurata a partire da presupposti talvolta anche molto diversi. Provando a trovare una definizione che li raccolga tutti, potremmo dire che in generale l’intelligenza è la capacità di adattarsi all’ambiente e risolvere problemi, e può essere pensata sia come capacità globale, poiché caratterizza l’individuo nel suo insieme, sia complessa,

Lo studente è invitato a considerare attentamente l’ortograﬁa di questo termine della lingua inglese, in quanto aptitude corrisponde all’italiano attitudine, mentre, come si vedrà più avanti, il potenziale falso amico attitude corrisponde all’italiano atteggiamento, cosa che soprattutto dal punto di vista psicometrico fa una certa differenza.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 28

Capitolo 1

Che cos’è e a cosa serve la psicometria?

perché è composta di elementi o attitudini che, senza essere interamente indipendenti, possono essere differenziati sul piano qualitativo. I più diffusi test di intelligenza sono la Stanford-Binet, le scale di Wechsler per adulti (Wechsler Adult Intelligence Scale, WAIS, da 16 anni in su), bambini-adolescenti (Wechsler Intelligence Scale for Children, WISC, dai 6 ai 16 anni) e bambini piccoli (Wechsler Preschool and Primary Scale of Intelligence, WPPSI, dai 2,5 ai 6 anni) e le Matrici Progressive di Raven. La Stanford-Binet prende origine nel 1904, quando il governo francese incarica la Société Libre pour l’Etude Psychologique de l’Enfant di creare una commissione per l’istruzione dei bambini “ritardati”. Il compito della commissione era quello di creare una procedura per l’identificazione degli studenti bisognosi di metodi di istruzione alternativi. Della commissione facevano parte Alfred Binet e Théodore Simon. Il nucleo della loro concezione di intelligenza era la capacità di giudizio (Binet e Simon, 1905), ossia quello che chiameremmo buon senso, senso pratico, iniziativa, o capacità di adattarsi alle circostanze. Gli item erano ordinati secondo un criterio di difficoltà crescente ed erano stati selezionati in modo da rappresentare le capacità di ragionamento tipiche di una determinata età. Il prodotto finale del test era l’età mentale del bambino determinata in base al principio per cui gli item corrispondenti alle capacità possedute da un bambino di, poniamo, 9 anni non vengono superate da quasi nessuno dei bambini di 8 anni, da circa la metà dei bambini di 9 anni e da quasi tutti i bambini di 10 anni. Nel 1912 lo psicologo tedesco William Stern propose una misura standard per la quantificazione dell’intelligenza, data dal rapporto fra l’età mentale, come stimata dal test di Binet e Simon, e l’età cronologica. Tale rapporto venne nominato Intelligenz-Quotient. Nondimeno, fu solo quando attraversò l’Atlantico e arrivò dalla parti dell’università californiana di Stanford che la scala trovò la sua terra promessa grazie al lavoro di Lewis Terman. Confortati da un budget quasi illimitato, Terman e il suo gruppo di ricerca condussero un gran numero di ricerche sul test, eliminarono alcuni degli item, ne introdussero di nuovi e stabilirono che il quoziente intellettivo (QI) dovesse essere calcolato mediante la seguente formula: QI = 100 ×

età mentale età cronologica

Risulterà chiaro a questo punto perché 100 è considerato un punteggio “normale”: se il rapporto fra età mentale ed età cronologica è uguale a 1, significa che l’individuo in questione ha un’età mentale perfettamente in linea con la sua età cronologica. Sempre negli Stati Uniti, e precisamente al Bellevue Psychiatric Hospital di New York, nel 1932 era diventato Chief Psychologist il figlio di due ebrei immigrati da una sperduta provincia della Romania al confine con la Moldavia. Al secolo, David Wechsler. Wechsler aveva lavorato molto sulla valutazione dei pazienti, e la sua insoddisfazione rispetto alle informazioni che riusciva a ottenere dalla Stanford-Binet lo condusse a sviluppare egli stesso delle nuove prove. Nel 1939 decide che il dado è tratto e pubblica The Measurement of Adult Intelligence, nel quale propone il concetto di intelligenza come “the global capacity of a person to act purposefully, to think rationally, and to deal effectively with his/her environment”6 (Wechlser, 1939, p. 229). Quello di Wechsler non è un unico test, ma è composto da 14 scale, equamente divise fra intelligenza verbale e intelligenza di prestazione (o di performance). In ogni scala viene ottenuto un punteggio 6

La capacità globale di agire in relazione a uno scopo, di pensare razionalmente e di interagire con successo con il proprio ambiente.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 29

Capitolo 1

Che cos’è e a cosa serve la psicometria?

di QI che può poi essere combinato per ottenere un punteggio di QI globale. Le scale verbali misurano aspetti che vanno dalla cultura generale, alla memoria di cifre, alla conoscenza del significato dei vocaboli, mentre quelle di prestazione riguardano abilità cognitive come la coordinazione visuo-motoria, la soluzione di problemi, il ragionamento logico e quello induttivo. Il QI delle scale di Wechsler non corrisponde al rapporto fra età mentale ed età cronologica, ma è una trasformazione statistica del punteggio ottenuto nelle prove, basata sulla prestazione di un campione molto ampio di individui della popolazione generale, che comunque permette di mantenere il valore 100 come punteggio dell’individuo “medio”. L’interpretazione dei punteggi inferiori e superiori a 100 dipende dall’entità dello scarto da questo valore, ma di questo argomento si parlerà più avanti. Mentre il volume di Wechsler era appena stato consegnato al tipografo, usciva quello di John C. Raven (1938). Partendo da una critica alla teoria di Spearman, Raven concepì l’intelligenza come la capacità di pensare con chiarezza e comprendere la complessità (quella che chiamò capacità eduttiva, dal latino educere, che significa “estrarre”, “far uscire”), da una parte, e la capacità di immagazzinare e riprodurre l’informazione (quella che chiamò capacità riproduttiva) dall’altra. Gli item del test consistono nell’individuare, fra quelle proposte, la figura che completa una serie, come potrebbe essere il caso della Figura 1.9. I test neuropsicologici sono volti alla valutazione di funzioni quali attenzione, memoria, abilità visuo-spaziali, linguaggio, capacità di astrazione ecc. in situazioni di sospetto deficit dovuto all’invecchiamento e/o a un danno cerebrale che non necessariamente può essere diagnosticato con la sola indagine strumentale neuroradiologica (come, per es., la risonanza magnetica funzionale). Può infatti accadere che persone con lesioni cerebrali non presentino deficit cognitivi e che persone con deficit cognitivi non abbiano subìto una lesione cerebrale. In Italia il testo di riferimento è il manuale di Spinnler e Tognoni (1987). Il test neuropsicologico probabilmente più diffuso è il Mini Mental State Examination (MMSE, Folstein, Folstein e McHugh, 1975), che serve a valutare i disturbi dell’efficienza intellettiva e la presenza di deterioramento mentale. È composto da trenta item che sondano sette diverse aree cognitive: orientamento temporale (viene, per es., chiesto in quale anno o stagione ci si trova), orientamento nello spazio (viene chiesto in quale città e in

Figura 1.9 Esempio di item delle matrici di Raven (la risposta corretta è la “a”).

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 30

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Figura 1.10 La figura da ricopiare per la prova visuo-costruttiva del Mini Mental State Examination. Fonte: estratto da Mini-Mental State Examination (MMSE), Psychological Assessment Resources; riproduzione parziale e con modifiche.

quale luogo ci si trovi), memoria immediata (vengono dette tre parole e la persona deve ripeterle), attenzione e calcolo (viene chiesto di contare da 100 a zero a passi di 7, oppure di fare lo spelling di una parola al contrario), rievocazione o memoria di richiamo (vengono chieste le tre parole dette nel compito di memoria immediata), linguaggio (denominazione di oggetti, ripetizione, comprensione ed esecuzione di comandi orali e scritti, capacità di scrivere una frase), prassia visuo-costruttiva (la persona deve ricopiare una ﬁgura geometrica come quella della Fig. 1.10). Il punteggio totale è compreso tra un minimo di 0 e un massimo di 30 punti. In base al punteggio viene stabilito il grado di compromissione neuro-cognitiva della persona.

1.6.2 I test di prestazione tipica I test di prestazione tipica misurano caratteristiche quali la personalità o gli atteggiamenti. In genere gli item sono costituiti da frasi che descrivono un comportamento o un’inclinazione verso un particolare oggetto sociale e rispetto alle quali la persona deve esprimere il proprio grado di accordo o la frequenza con cui effettua quel determinato comportamento. In questo tipo di item non esiste una risposta corretta, perché lo scopo è rilevare il punto di vista della persona. I test di personalità fanno riferimento a teorie psicologiche che tendono a ricondurre il comportamento e le forme che assumono i comportamenti alle caratteristiche personali dell’individuo. Possono essere a loro volta classificati in base ai contenuti, al tipo di item e ai metodi di somministrazione. Il metodo più tradizionale di indagine della personalità è l’intervista faccia a faccia, che può avere vari gradi di strutturazione in base ai vincoli posti all’intervistatore dalla procedura specifica. Questo metodo permette di raccogliere una grande varietà di informazioni circa l’intervistato, in quanto oltre alle risposte alle domande può essere osservato anche il comportamento non verbale, la latenza delle risposte, la gestualità ecc. Dall’altra parte, però, i risultati sono difficilmente ripetibili in situazioni diverse e/o con intervistatori diversi, da cui un’eccessiva dipendenza dei risultati dalle capacità e dalle caratteristiche personologiche dell’intervistatore. Per quanto utile dal punto di vista della raccolta di dati qualitativi, l’intervista classica non consente di rendere quantitative le informazioni ottenute. Questo obiettivo può però essere raggiunto con l’intervista semi-strutturata, che presenta un insieme di domande standard come un test auto-somministrato, ma offre a chi lo somministra la possibilità di formulare ulteriori domande. Le interviste semi-strutturate sono molto diffuse nell’ambito della psicologia clinica, poiché questo metodo consente un approccio coerente e re-

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 31

Che cos’è e a cosa serve la psicometria?

Capitolo 1

plicabile alle procedure diagnostiche. Un esempio è la Shedler-Westen Assessment Procedure-200 (Westen e Shedler, 1999a; 1999b). La SWAP-200 è uno strumento volto alla valutazione dei disturbi di personalità che, fra gli altri scopi, si propone di superare alcuni limiti degli strumenti auto-somministrati nella valutazione dei processi psichici impliciti ed espliciti che costituiscono la personalità. In particolare, dovrebbe consentire allo psicologo sia di osservare e inferire come in una intervista classica, sia di riassumere i dati in modo adeguato e significativo mediante metodi statistici come in un test standardizzato. Approfondimento Quando, come nel caso del test in Figura 1.7, è la persona stessa 1.2 a doversi valutare rispetto agli item del test, si parla di test auto-somministrato (o self-report). Fra questi test, uno dei più popolari è indub- SWAP-200 biamente il già citato Minnesota Multiphasic Personality Inventory-II (MMPI-II, Butcher et al., 1989), che è definibile come un inventario di personalità ad ampio spettro per valutare le principali caratteristiche strutturali di personalità e i disturbi di tipo emotivo. La versione attuale rappresenta la revisione dello strumento sviluppato originariamente da Hathaway e McKinley (1940) per elaborare diagnosi psichiatriche e per determinare la gravità del disturbo psicopatologico. L’inventario è composto da 567 item costituiti da affermazioni a carattere più o meno patologico (sono presenti item come “Mi piacciono le riviste di meccanica”, ma anche altri come “Spesso sento voci senza sapere da dove provengano”) alle quali la persona deve rispondere “Vero” o “Falso”. L’MMPI fornisce punteggi su 7 scale di validità, 10 cliniche (o di base), 15 supplementari e 15 di contenuto. Le scale di validità (VR, TR, F1, F2, F, L, K) servono per individuare stili di risposta non sinceri e/o falsati, più o meno volontari. Se la persona ottiene punteggi estremi in queste scale, i risultati del test non sono validi. Le scale cliniche indagano le dimensioni più significative della personalità, come depressione o ipomania, mentre le scale di contenuto consentono la descrizione di variabili di personalità come cinismo e autostima. Approfondimento Una volta determinati i punteggi nelle varie scale, si ottiene un 1.3 profilo (Fig. 1.11), che una volta interpretato può essere utilizzato per la valutazione delle caratteristiche di personalità di chi lo ha Le scale del Minnesota Multiphasic Personality compilato. Inventory-II Gli item dell’MMPI, come abbiamo detto, prevedono una risposta dicotomica Vero/Falso, che limita la variabilità delle risposte e, di conseguenza, la precisione della misurazione. Per ovviare a questo inconveniente, la classificazione di caratteristiche di personalità predefinite come quelle degli item di SWAP200 si basa sull’approccio delle scale di valutazione. La procedura prevede che la valutazione del paziente venga eseguita sul contenuto di almeno tre sedute, e in effetti le scale di valutazione, per essere affidabili, dovrebbero essere compilate solo dopo periodi di osservazione sufficientemente lunghi. Inoltre, occorre verificare che osservatori diversi producano per la stessa persona valutazioni uguali, o almeno adeguatamente simili, proprio perché anche il clinico è un essere umano e quindi, per quanto addestrato e professionale, può cadere vittima di distorsioni della valutazione, come per esempio l’“effetto alone”, per il quale una persona a cui viene assegnato un punteggio elevato in un item tenderà a ottenere punteggi elevati anche in altri item potenzialmente in relazione con quello. È un po’ come a scuola: gli alunni meno bravi in una materia chiave tenderanno a essere considerati meno bravi anche nelle altre indipendentemente dal loro reale livello, mentre per quelli più bravi accade il contrario, e questo può avere ripercussioni sulla valutazione dei compiti in classe o delle interrogazioni.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 32

Capitolo 1

Che cos’è e a cosa serve la psicometria?

110 100 90 Punteggio

80 70 60 50 40 30

VR TR F1 F2 F

K Hs D Hy Pd Mf Pa Pt Sc Ma Si Scala

Figura 1.11 Esempio di profilo dei punteggi al test MMPI-II. Per una descrizione delle scale, si veda l’Approfondimento 1.3.

Come però abbiamo visto nel caso del TIPI nel Paragrafo 1.5.2, la scala di valutazione può essere utilizzata anche nei test auto-somministrati. La risposta riferita dalla persona può essere minimo a tre alternative, e in genere si estende ﬁno a un massimo teorico potenzialmente coincidente con i numeri reali, come nel caso degli item della Dissociative Experiences Scale (DES; Bernstein e Putnam, 1986) (Fig. 1.12). In questo caso la persona doveva porre un segno sulla linea tratteggiata posta sotto a ciascun item, in modo da indicare la percentuale di volte che la situazione indicata era stata vissuta. Il punteggio nell’item veniva poi determinato calcolando la distanza, in millimetri, dall’estremo di sinistra. Questo metodo di scoring, però, risultava poco pratico, soprattutto quando la scala veniva somministrata in contesti clinici e occorreva una procedura più rapida di attribuzione del punteggio, per cui Carlson e Putnam

(a)

1- Alcune persone hanno esperienza di guidare/andare in macchina o in autobus o in metropolitana e improvvisamente di realizzare di non ricordare cosa è successo durante tutto o parte del viaggio. Traccia una sbarra sulla linea tratteggiata per indicare la percentuale di volte in cui hai esperienza di questo:

(b)

100%

1- Alcune persone hanno esperienza di guidare/andare in macchina o in autobus o in metropolitana e improvvisamente di realizzare di non ricordare cosa è successo durante tutto o parte del viaggio. Cerchia un numero per indicare la percentuale di volte in cui ti avviene questo:

10%

20%

30%

40%

50%

60%

70%

80%

90%

100%

Figura 1.12 Esempi di item e scale di risposta della prima (a) e seconda (b) versione della Dissociative Experiences Scale.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 33

Capitolo 1

Che cos’è e a cosa serve la psicometria?

(a) Del tutto falso

Abbastanza falso

Abbastanza vero

Del tutto vero

Penso di avere molte buone qualità.

(b) Assolutamente vero per me

Abbastanza vero per me

Né vero né falso

Abbastanza falso per me

Assolutamente falso per me

Tendo a essere molto riflessivo.

Molto poco

Poco

Moderatamente

Sufficientemente

Piuttosto

Molto

Perfettamente

Sono una persona loquace

Figura 1.13 Esempi di item con scala di risposta di tipo Likert a numero di punti variabile.

(1993) introdussero un nuovo formato di risposta, basato su una scala di valutazione a 11 punti (vedi Fig. 1.12). Nella pratica raramente il numero massimo di alternative di risposta supera le 11. È stato dimostrato che le persone difficilmente arrivano a distinguere oltre un certo livello di raffinatezza della valutazione. Il numero di punti più frequentemente utilizzato nel formato di risposta varia fra 4 e 8 (Fig. 1.13). Da quanti punti dovrebbe essere costituita una scala di valutazione ottimale? Non esiste una risposta definitiva a questa domanda: ovviamente, maggiore è il numero di punti, maggiore è la possibilità di dispersione delle risposte, da cui una maggiore variabilità che senza dubbio consentirebbe di differenziare meglio le persone, da una parte, e di ottenere analisi statistiche più accurate, dall’altra. Nondimeno, è noto che le scale di risposta con molti punti favoriscono uno stile di risposta che predilige la scelta di punteggi estremi, piuttosto che di quelli intermedi, indipendentemente dal contenuto dell’item. Inoltre, bisogna tenere conto che le persone non sono “macchine da risposta agli item”: quanto maggiore è il numero di alternative di risposta, tanto maggiore sarà il carico cognitivo richiesto per la risposta a ogni item. In questo senso, in una scala con molti item può diventare estremamente faticoso rispondere esprimendo ogni volta il proprio grado di accordo su una scala a 7 punti, per esempio. Ritornando all’esempio del TIPI considerato in precedenza, pensate se invece di 10 item doveste rispondere a 200 item, con il medesimo formato di risposta. Non è casuale, quindi, che test psicologici composti da molte domande prediligano formati di risposta con un numero minore di alternative (in genere due, come il MMPI-II, composto da 567 items, o al massimo quattro, come il SIPP-118, composto da 118 items), mentre test con un numero limitato di item possano “permettersi” scale di risposta più ampie (come è appunto il caso del DES, composto da 28 item). Il modello teorico alla base di questa impostazione del formato di risposta agli item risale agli anni Trenta, e in particolare a un fondamentale articolo di Rensis Likert (1932), l’Autore a cui è legato il termine tecnico che indica questo tipo di tecnica psicometrica. Occorre fin da subito prestare attenzione ai termini: la scala Likert è un insieme di item i cui punteggi vengono sommati per ottenere un punteggio totale

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 34

Capitolo 1

Che cos’è e a cosa serve la psicometria?

che rappresenta la quantificazione del costrutto che si intende misurare. Il formato di risposta in cui si utilizza una scala a più punti come negli esempi di Figura 1.13, indica invece l’item di tipo Likert. Molto spesso, anche nella letteratura scientifica, col termine scala Likert viene erroneamente indicato il formato di risposta. Le scale Likert nacquero come metodo di misura degli atteggiamenti. Il tentativo di misurare gli atteggiamenti con delle scale risale agli anni Venti del Novecento, con il lavoro pionieristico di Allport e Hartman (1926) e di Thurstone (1928). I metodi sviluppati da Thurstone, per quanti efficaci, erano piuttosto laboriosi da realizzare, o perché richiedevano ai partecipanti estenuanti sedute di somministrazione o perché avevano bisogno di una lunga e complicata messa a punto in laboratorio. Il metodo proposto da Likert, invece, è relativamente più semplice: si definisce il costrutto da misurare e si individua un campione di item che sia rappresentativo dell’universo di operazionalizzazioni possibili per quel costrutto. Gli item devono poi essere valutati da un pool di giudici (o esperti) su una scala a 5 punti. Il compito di questi giudici è quello di valutare quanto il contenuto dell’item sia favorevole al costrutto che si intende misurare. Si noti che non è ancora il momento della misurazione dell’atteggiamento su una popolazione di persone, ma si tratta di una fase preliminare in cui degli esperti valutano quanto l’item è appropriato rispetto al concetto in esame, utilizzando la seguente scala: 1 2 3 4 5

= = = = =

Molto sfavorevole Un po’ sfavorevole Indeciso Un po’ favorevole Molto favorevole

In base alle risposte dei giudici vengono selezionati gli item che costituiranno la scala finale, quella che effettivamente viene somministrata ai soggetti. Le persone verranno a loro volta invitate a rispondere su una scala di accordo con il contenuto dell’item, che ha come estremi “Per niente d’accordo” e “Completamente d’accordo”, e può essere a 5 o 7 punti. Spesso vengono utilizzate scale con un numero pari di alternative, per evitare che le persone prendano posizioni intermedie o neutre. Il punteggio relativo all’atteggiamento sarà la somma dei punteggi di valutazione indicati per ogni item, da cui il termine Method of Summated Ratings (“metodo delle valutazioni sommate”; vedi, per es., Spector, 1992). Di fatto, questo è il metodo più comune per la realizzazione di un test psicologico, per quanto non sia esente né da difetti né da critiche (per una brillante discussione del problema vedi, per es., Miceli, 2004). Un altro metodo molto popolare di misura delle opinioni e degli atteggiamenti è il differenziale semantico. Questa tecnica è stata proposta alla ﬁne degli anni Cinquanta del Novecento da Osgood, Suci e Tennenbaum (1957) e affonda le sue origini nella controversia medievale dei nominalisti contro i realisti, ossia fra chi riteneva che le sole cose reali fossero entità e che le astrazioni di queste (o universali) fossero mere parole e chi invece pensava che gli universali potessero esistere oggettivamente e indipendentemente nella mente di Dio. Rifacendosi alla semantica generale di Korzybski, il differenziale semantico di Osgood e collaboratori aveva lo scopo di misurare il signiﬁcato connotativo dei concetti. La persona che lo compila deve scegliere una posizione su una linea delimitata da due parole bipolari, come nella Figura 1.14.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 35

Che cos’è e a cosa serve la psicometria?

Capitolo 1

Per ogni coppia di aggettivi, poni una crocetta nel punto che riflette il grado in cui ritieni che gli aggettivi siano descrittivi di un professore di Psicometria. Onesto

---------------------------------------------------------

Disonesto

Gentile

---------------------------------------------------------

Crudele

Inutile

---------------------------------------------------------

Utile

Obiettivo

---------------------------------------------------------

Prevenuto

Forte

---------------------------------------------------------

Debole

Stupido

---------------------------------------------------------

Saggio

Energico

---------------------------------------------------------

Indolente

Figura 1.14 Esempio di differenziale semantico. Fonte: Robson, 1993; con modifiche.

Lo sviluppo di questo tipo di misura si basa sull’abilità che le persone acquisiscono spontaneamente nel descrivere gli altri in base ad aggettivi, per cui sulla scorta del profilo che si ottiene unendo i punti che sono stati segnati su ogni linea è possibile farsi un’idea dell’opinione che la persona ha del concetto in questione. Gli studi realizzati negli anni successivi alla sua comparsa hanno mostrato che i giudizi delle persone tendono a raggrupparsi in base tre dimensioni principali: valutazione, potenza e attività, i cui bipoli prototipici, invarianti rispetto alle epoche e alle culture, sono “buono  cattivo”, “forte  debole” e “attivo  passivo”. Fra i test di prestazione tipica possiamo includere anche i test proiettivi. Un test proiettivo è un test costituito da stimoli visivi intenzionalmente ambigui, e il compito della persona è in genere quello di fornirne una descrizione o di raccontare una storia ispirata all’immagine rappresentata. Lo scopo di questa particolare metodologia d’indagine dovrebbe essere quello di far emergere contenuti psichici di cui l’individuo non è pienamente consapevole, come emozioni nascoste o conflitti interni. In base ai modelli psicoanalitici e gestaltici, si assume che lo stimolo ambiguo accresca l’influsso delle variabili intrapsichiche nei processi percettivi, che quindi si configurerebbero come il risultato di fattori strutturali, legati alla natura degli stimoli, e fattori funzionali, legati ai bisogni, alle esperienze passate ecc. L’ambiguità dello stimolo sembrerebbe attenuare l’influsso dei fattori strutturali a vantaggio di quelli funzionali, che determinerebbero l’emergere del pensiero irrazionale, caratterizzato dalle emozioni e legato direttamente al mondo delle dinamiche affettive ed emotive dell’individuo. In questo senso, l’approccio concettuale dei test proiettivi può essere considerato in antagonismo con quelli di tipo standardizzato: i test proiettivi si configurano infatti come studi intensivi delle caratteristiche relativamente uniche del caso individuale (approccio idiografico), mentre i test standardizzati illustrati precedentemente perseguono lo scopo di giungere alla scoperta di leggi generali, ossia le “regole” di funzionamento psicologico comuni a tutti gli individui, al di là dello loro differenze soggettive (approccio nomotetico). I test proiettivi sono spesso criticati perché non sembrano offrire le garanzie di oggettività della misurazione dei test standardizzati: l’assegnazione dei punteggi, infatti, avviene in base alla valutazione da parte del clinico del contenuto delle risposte, procedura dinanzi alla quale molti storcono la bocca, non ritenendola sufficientemente valida e attendibile. In effetti, quando sottoposti alle verifiche psicometriche utilizzate per i test standardizzati, i test proiettivi non producono risultati particolarmente esal-

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 36

Capitolo 1

Che cos’è e a cosa serve la psicometria?

tanti. Nondimeno, ancora nel 1993 Piotrowski, Keller e Ogawa riferivano che 6 dei 10 test più utilizzati dagli psicologi clinici americani erano test proiettivi, in ossequio a quello che successivamente fu definito il “paradosso proiettivo” (Cordòn, 2005). Un esempio molto semplice di tecnica proiettiva può essere considerato il test delle libere associazioni di parole. Questa tecnica consiste essenzialmente nell’enunciare alla persona una serie di parole apparentemente casuale ma in realtà scelte ad hoc. A ognuna di esse la persona deve rispondere con la prima parola che le viene in mente: più che al contenuto della risposta, però, si guarda al tempo di reazione. L’invenzione del metodo non fu di Freud, come molti ritengono, ma, come riferisce lo stesso Jung (1906), di Francis Galton, che per primo mostrò la sua utilità nello scandagliare i recessi più reconditi della psiche. Fu utilizzato anche da Wundt, per stabilire sperimentalmente le leggi dell’associazione delle idee, e da Auschaffenburg e Kraepelin, che distinsero fra associazioni interne (semantiche) ed esterne (verbali): le prime sono associazioni in base al significato, le seconde in base alle forme lessicali e al suono. Kraepelin, in particolare, mostrò che stati di fatica o di alterazione di coscienza favorivano la comparsa di associazioni esterne. Ma il particolare che intrigò Jung fu quello riferito da Ziehen, il quale notò che il tempo di reazione era più lungo quanto più la parola stimolo era connessa con qualcosa di spiacevole per la persona. Ispezionando il contenuto delle parole con risposta ritardata era possibile individuarne una comune rappresentazione sottostante (vi ricorda niente, questo concetto?) che Ziehen chiamò gefühlsbetonter Vorstellungskomplex, che tradotto dalla lingua del diavolo significa “complesso di rappresentazione a tonalità emotiva”. L’aspetto forse più interessante era che la persona difficilmente era consapevole della relazione tra le risposte e il complesso (Ellenberger, 1976). Jung perfezionò la tecnica di associazione verbale e distinse fra complessi normali, accidentali e permanenti. I primi erano quelli comuni a tutti, con una distinzione di genere: mentre nelle donne prevalevano quelli erotici (sic!), seguiti da quelli riguardanti la famiglia, la casa, la maternità, la situazione matrimoniale, negli uomini erano più frequenti quelli connessi all’ambizione, al denaro e al successo. I complessi accidentali erano quelli relativi a eventi particolari della vita della persona, mentre quelli permanenti assumevano un qualche significato in condizioni psicopatologiche come l’isteria e la dementia praecox. Approfondimento Il test proiettivo più noto, anche nell’immaginario collettivo, è 1.4 comunque il test delle macchie d’inchiostro di Rorschach. In questo Jung e la prima macchina test un esaminatore mostra alla persona una serie di 10 tavole biandella verità che sulle quali sono stampate delle macchie d’inchiostro bilateralmente simmetriche. Cinque tavole sono in bianco e nero, 2 bianche e nere con macchie rosso vivo e 3 policrome. Nel somministrare le tavole l’esaminatore deve cercare di mantenere un atteggiamento non direttivo, assicurandosi di far comprendere alla persona che può fornire quante risposte vuole e che non esistono risposte giuste o sbagliate. La domanda che l’esaminatore rivolge alla persona per ogni macchia è “Cosa potrebbe essere questo?”: dopo ogni risposta l’esaminatore ha il compito di chiedere alla persona di chiarire la specifica zona della macchia a cui ciascuna risposta è riferita e di specificare quali caratteristiche di essa (cioè forma, colore ecc.) hanno rivestito un ruolo nella determinazione della risposta, poiché Approfondimento è in base a queste caratteristiche che avviene l’interpretazione. 1.5 I sostenitori dell’impiego dei test proiettivi ritengono che per La storia del test di l’indagine degli atteggiamenti e delle motivazioni inconsce o impliRorschach cite i test auto-somministrati, o anche le interviste semi-strutturate, non siano adeguate, in quanto le risposte che si ottengono riguardano ciò di cui la

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 37

Che cos’è e a cosa serve la psicometria?

Capitolo 1

persona è consapevole e sono socialmente determinate. E questo non per un atto di malafede, ma semplicemente perché certi contenuti psichici potrebbero essere inaccessibili al pensiero cosciente o inesprimibili sotto forma di item di un test standardizzato. Una interessante dimostrazione di questo principio è contenuta in un illuminante libro di Vance Packard, intitolato I persuasori occulti (Packard, 1958). In quest’opera, che ha letteralmente fatto storia, Packard illustra come nel secondo dopoguerra la pubblicità commerciale si sia convertita a nuovi metodi di persuasione all’acquisto, non più basati su ciò che le persone riferivano coscientemente di desiderare. Paradigmatica è in questo caso la citazione che Packard pone in esergo al primo capitolo, ripresa da un magazine dell’epoca: “Pochissimi sono i casi in cui la gente sa realmente ciò che vuole, anche quando dice di saperlo” (p. 12 dell’edizione italiana). Cosa succedeva? Che il cosiddetto metodo statistico della “conta dei nasi”, che stabiliva, per esempio, quale percentuale di massaie riferiva di avere intenzione di comperare una cucina a tre gambe purché non costasse più di 249 dollari, non funzionava. Non che le persone mentissero deliberatamente. Ma ciò che l’intervistato diceva all’intervistatore non corrispondeva al suo effettivo comportamento al momento di decidere l’acquisto. Si giunse così alla conclusione che: (a) le persone non sanno ciò che vogliono comperare; (b) le persone non dicono la verità circa i propri desideri e le proprie fobie, posto che ne siano consapevoli; (c) le persone al momento dell’acquisto non si comportano in modo razionale. Un esempio di questo fenomeno riportato da Packard è quello di una distilleria che produceva due tipi di birra, una chiara e una normale. Da un’indagine risultò che tre quarti degli intervistati avevano dichiarato di preferire la birra chiara, ma questo dato contrastava con i dati di produzione, in base ai quali risultava che la ditta, per soddisfare le richieste reali dei suoi clienti, doveva produrre birra normale in quantità nove (9!) volte maggiore di quella chiara. Se però consideriamo che all’epoca la birra chiara era considerata roba da intenditori, allora diventa più facile comprendere come la domanda apparentemente ingenua “Beve la birra chiara o la birra normale?” si traduceva, nell’inconscio di chi rispondeva, in “Beve il tipo di birra preferito dalle persone con un gusto rafﬁnato o il tipo più comune che bevono tutti?”. L’apparente imprevedibilità del comportamento di acquisto delle persone svaniva di fronte all’indagine “in profondità” delle loro reali motivazioni, analogamente alla celebre battuta in Pieràl nel ﬁlm di Luis Buñuel Quell’oscuro oggetto del desiderio: di fronte allo stupore del suo interlocutore per aver “indovinato” quale era stata la sua decisione in merito a una questione amorosa, il nano psicoanalista risponde “A livello d’inconscio, è accertato che il fato non esiste”. Fu così che negli Stati Uniti le grandi compagnie cominciarono a rivolgersi agli psicologi e agli psicoanalisti per comprendere di quali tipi di prodotti i consumatori avevano realmente desiderio.

1.7 Le proprietà psicometriche di un test psicologico 1.7.1 Attendibilità Supponete di dover misurare la larghezza del vano sotto alla finestra dove volete inserire la vostra nuova scrivania. Lo misurate voi, e ottenete come risultato un metro esatto. Segnate sul foglietto da portarvi al mobilificio e vi preparate per uscire. Siccome non si fida, il vostro fidanzato/a decide di ripetere la misurazione e trova che in realtà il vano è largo 1,02 metri. Gli schiamazzi dell’inevitabile discussione richiameranno poi l’attenzione di vostro padre, che non potrà esimersi dal misurare in prima persona

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 38

Capitolo 1

Che cos’è e a cosa serve la psicometria?

(lui sì che lo sa!) e il responso è 99 cm. Mentre all’estemporaneo simposio sulla larghezza del vano si aggiunge quindi un nuovo relatore, vostra madre, col suo consueto stile da agente segreto, esegue a sua volta la sua misurazione. Novantotto centimetri. Ok, fermiamoci un attimo. Quattro persone hanno misurato la larghezza di un vano che verosimilmente non ha subito modifiche strutturali nel quarto d’ora in cui le misurazioni sono avvenute, né è realistico pensare a non ben definibili variazioni nello strumento di misura che avete utilizzato. Nondimeno, il vano risulta largo, in ordine crescente: 98, 99, 100 e 102 cm. Salomonicamente, optate per calcolare la media di queste quattro misure, e di utilizzare questa come riferimento: 99,75 cm. “Facciamo un metro e non se ne parla più”, conclude vostro padre. Ma come? Era la misura che avevamo ottenuto fin dall’inizio… In quanto strumento di misura di qualcosa, anche un test psicologico non è esente da quello che definiamo errore di misurazione. Pensiamo a tutte quelle volte che siamo usciti dall’aula dove abbiamo sostenuto un esame, convinti che il voto conseguito non rispecchiasse la nostra reale preparazione. Anche in questo caso presupponiamo che vi sia stato quello che potremmo identificare come un errore di misurazione da parte del docente della nostra padronanza della materia, e magari pensiamo: “se rifaccio l’esame altre dieci volte, prenderei sicuramente di più tutte e dieci le volte”. Nel momento in cui ci poniamo il problema della precisione di una misurazione e della ripetibilità del risultato, tutte le altre condizioni mantenute costanti, abbiamo a che fare con quella che è chiamata attendibilità di una misura. Questo termine in italiano può assumere altre forme, come affidabilità o fedeltà, a seconda delle fonti, ma tutti e tre i termini finora presentati sono la traduzione italiana dell’unico (per fortuna!) termine inglese reliability. Nel caso della psicometria, l’attendibilità è quella proprietà psicometrica di un test o di una scala che riguarda l’accuratezza con cui un test misura una certa variabile psicologica e riproduce lo stesso risultato al netto dell’errore di misurazione che inevitabilmente viene commesso (Barbaranelli e Natali, 2005). Ritorniamo all’esempio di qualche pagina fa sul modello di misurazione della preparazione all’esame da parte di uno studente: non essendo la conoscenza della materia una caratteristica visibile, il docente ha necessità di farla “emergere” con le domande che fa all’esame, ed è in base alle risposte fornite che il docente deduce il vostro livello di preparazione e vi assegna il voto X. Abbiamo visto come il modello matematico più semplice che può rappresentare questa relazione sia il seguente: X = λP + E in cui X è il voto all’esame, P è il vostro livello di preparazione (ossia, ciò che ci aspettiamo che venga misurato), l è quanto influisce il livello di preparazione sul voto effettivamente ottenuto ed E era stato definito come “altri fattori estranei alla preparazione”. Nel caso dell’esame, se proprio ci devono essere fattori estranei alla preparazione che influiscono sul voto che otteniamo, desidereremmo che fossero a nostro favore, ossia aggiungessero qualcosa che magari non ci siamo completamente meritati (per es., a un compito scritto quella risposta corretta in più suggerita da un compagno), ma sappiamo bene come sia possibile anche il contrario, ossia che essi diminuiscano, in luogo di aumentare (per es., abbiamo segnato sul foglio di risposta l’alternativa sbagliata anche se sapevamo quale era quella corretta!) il punteggio che rappresenta esattamente la nostra preparazione. Sia che prendiamo di più di quanto ci saremmo meritati, sia che prendiamo di meno, è stato commesso un errore di misurazione. Quello che ci aspettiamo è che, se proprio errore ci deve essere, questo possa essere considerato casuale (a volte in più, a volte in meno) e di entità trascurabile. Quello che non vorremmo

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 39

Capitolo 1

Che cos’è e a cosa serve la psicometria?

è che invece esso sia sistematico (in gergo, bias), ossia ci penalizzi costantemente, in base, per esempio, a un più o meno giustificabile accanimento nei nostri confronti da parte di chi ci valuta – in questo caso preferiremmo di gran lunga un errore sistematicamente a nostro favore, magari perché il professore è di manica larga coi voti. La teoria e i metodi relativi alla valutazione dell’attendibilità e dell’errore di misurazione in questo momento però non ci interessano: ci basti considerare l’attendibilità di un test psicologico come la proporzione di punteggio osservato (X) che non riflette l’errore di misurazione (E), ossia quanto del punteggio osservato è effettivamente dovuto al costrutto che dovrebbe averlo determinato, in base al modello di misurazione per indicatori riflessivi. In questo senso, l’espressione “il voto che ho ottenuto riflette in pieno la mia preparazione” indica che, almeno nella percezione dello studente, il voto conseguito non presenta errori di misurazione. In formule, l’attendibilità r(tt) può quindi essere calcolata come: r (tt ) =

V V E = = 1− X V +E X

dove X = V + E e V rappresenta il punteggio vero, ossia la reale quantità di costrutto posseduta dall’individuo o dall’unità di analisi considerata. Domanda: come facciamo a sapere quanto vale V, oppure quanto vale E, per calcolare r(tt)? Eccellente domanda, ma per comprendere la risposta da un punto di vista psicometrico più approfondito dobbiamo prima imparare qualche elemento di statistica in più (per una trattazione approfondita dell’argomento vedi Chiorri, 2011). A livello base, consideriamo il caso della misurazione della larghezza del vano dove inserire la scrivania, e supponiamo che la reale misura sia veramente la media delle quattro misurazioni che abbiamo ottenuto: 99,75 cm. Se questa è la misura vera, allora per calcolare l’attendibilità di ognuna delle misure che sono state eseguite dobbiamo individuare l’errore commesso (indipendentemente dal segno), dividere per il punteggio vero e sottrarre a 1. Se sottraiamo al punteggio osservato il punteggio vero otteniamo i risultati riportati nella Tabella 1.3. Calcolando la media delle attendibilità di ogni singola misura, otteniamo ,987, che potrebbe essere considerata una stima dell’attendibilità dello strumento, ossia della proporzione di punteggio vero contenuto nel punteggio osservato. Questa piccola dimostrazione illustra come il coefﬁciente di attendibilità vari fra 0 (attendibilità nulla) e 1 (attendibilità perfetta), e che quanto più è vicino a 1, tanto maggiore è l’attendibilità della misurazione. Quando infatti l’errore di misurazione è prossimo a zero, l’attendibilità è prossima a 1. Si noti inoltre un aspetto tutt’altro che banale: se facciamo la somma degli errori di misurazione, tenendo conto del segno, la somma è uguale a zero. Non è un caso, perché Tabella 1.3 Errore di misurazione e attendibilità delle misure di una scrivania. Proporzione di errore rispetto E alla misura vera X (99,75) X , indipendentemente

Attendibilità E X

Misura

Errore (E) = Misura – Misura reale

– 1,75

,018

,982

– 0,75

,008

,992

100

+ 0,25

,003

,997

102

+ 2,25

,023

,977

dal segno di E

1−

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 40

Capitolo 1

Che cos’è e a cosa serve la psicometria?

se consideriamo casuale l’errore di misurazione, questo a volte sarà in più, a volte in meno, sommando nel lungo periodo a zero. Nel manuale di istruzioni del mio orologio da polso c’è scritto che esso può acquistare o perdere ogni mese 15 secondi. Questo significa che ogni volta che guardo l’orologio, anche se inizialmente ho impostato l’ora in modo assolutamente preciso rispetto agli orari esatti facilmente rinvenibili su internet, posso aspettarmi di vedere un orario leggermente diverso da quello reale. Di quanto? Non è possibile dirlo senza misurarlo, ma in base alle indicazioni della ditta che ha fabbricato l’orologio non più di 15 secondi in più o in meno. In teoria, però, mediando fra quando i secondi li acquista e quando li perde, a lungo andare l’orologio dovrebbe essere sufficientemente preciso, e quindi fornire un orario attendibile, e permettermi di arrivare in tempo a prendere il treno. Supponiamo però che la perdita o l’acquisizione dei secondi non sia casuale, ma sia sistematica: ossia, i secondi vengono regolarmente acquistati, per cui l’ora che osservo è una misura dell’ora esatta distorta costantemente in avanti, come fa regolarmente la sveglia che ho sul comodino accanto al letto. Questo significa che ogni volta che quella maledetta suona al mattino, non sono proprio le sette in punto, ma probabilmente le 6,59 e qualche secondo. A forza di acquistare secondi a causa del bias, o distorsione sistematica, potrei osservare che in venti giorni l’ora che osservo è avanti di un minuto rispetto all’orario reale. Se non regolassi mai l’orario, potrei attendermi che in poco meno di un anno (300 giorni) acquisti anche 15 minuti, per cui, quando squilla alle 7, sono in realtà le 6,45. Per quanto questo giovi al mio arrivare puntuale a lezione, rappresenta comunque un errore di misurazione del quale, differentemente dal caso del mio orologio da polso, posso giungere a conoscere l’entità e la direzione. Nondimeno, proprio perché lo so, posso periodicamente spostare indietro l’orario della sveglia in modo da farlo coincidere con quello esatto, cosa invece inutile con l’orologio da polso, dato che non so mai in che direzione va l’errore. Con i test psicologici il problema legato all’errore di misurazione funziona un po’ allo stesso modo: ci sono errori casuali, che sommano a zero, e rappresentano quelle che possiamo chiamare fluttuazioni casuali del punteggio osservato attorno al punteggio vero. Se somministriamo un test di intelligenza come le scale di Wechsler per bambini nella scuola elementare vicino all’università, possiamo aspettarci di ottenere punteggi che in generale rappresentino in modo attendibile il livello intellettivo (o qualunque cosa misuri la WISC) dei bambini, con la coscienza però che, in assenza di bias, il livello intellettivo di qualche bambino sarà stato sovrastimato e quello di altri sottostimato. Proprio i test di intelligenza, però, hanno dimostrato di soffrire di quello che possiamo chiamare bias culturale, ossia errori non casuali ma costanti e sistematici, dovuti alla diversità fra la cultura di provenienza della persona in esame e la cultura di cui il test è espressione. Il problema emerse nel secondo dopoguerra, soprattutto negli Stati Uniti, quando ci si accorse che in test di intelligenza o attitudinali individui appartenenti a culture diverse da quella all’interno della quale è stato sviluppato il test generalmente ottengono punteggi medi statisticamente inferiori, e l’entità della differenza cresce al crescere delle differenze culturali. Non è un caso quindi che alla Stanford-Binet i bambini di etnia afro-americana ottenessero punteggi inferiori a quelli dell’etnia caucasica,7 e il motivo non è da ricercarsi, come pur7

Negli Stati Uniti il termine Caucasian indica di fatto i “bianchi” di origine europea. L’origine del termine si deve a Johann Friedrich Blumenbach (1752-1840), uno scienziato e antropologo tedesco che, nel classiﬁcare le razze, riferisce di aver tratto il nome dalle popolazioni caucasiche, e in particolare i Georgiani, che a suo giudizio rappresentavano la più bella (sic!) delle specie umane e che, almeno a quanto si diceva all’epoca, erano stati gli autoctoni dell’umanità.

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 41

Che cos’è e a cosa serve la psicometria?

Capitolo 1

troppo qualcuno più o meno in buona fede ha fatto, in differenze genetiche, individuando quindi prove a favore della superiorità di alcune etnie sulle altre, ma nella distanza fra il contesto culturale in cui il test è stato sviluppato e quello proprio della sotto-popolazione in esame. Pensateci un attimo: Stanford è una delle più prestigiose università americane, con una retta annuale che i risparmi che avete nel salvadanaio a forma di porcellino difficilmente coprirebbero: nel periodo fra le due guerre mondiali, quando la scala di intelligenza è stata messa a punto, difficilmente avreste potuto incontrare, camminando per il campus, qualche studente o professore di etnia afro-americana. Il test era quindi espressione di una sotto-popolazione specifica, con caratteristiche culturali molto diverse da quelle della sotto-popolazione afro-americana a cui fu successivamente somministrato. Che in questo caso le prestazioni potessero essere peggiori era abbastanza scontato, almeno a valutare la situazione con gli occhi di oggi. Un esempio interessante è riferito da Du Bois (1939). Nel 1926 Florence Goodenough aveva sviluppato il Draw-a-Man Test (oggi chiamato Draw-a-Person Test). Molto semplicemente, viene chiesto al bambino di realizzare diversi disegni su tre fogli separati: un uomo, una donna e se stesso. Il bambino viene lasciato libero di realizzare i disegni come vuole, senza alcuna istruzione ulteriore. Di fatto non c’è un disegno giusto o sbagliato, né limiti temporali – anche se di solito i bambini non impiegano più di 15 minuti. Unico vincolo, le persone vanno disegnate completamente, dalla testa ai piedi. Lo scopo della Goodenough era individuare una prova che permettesse di valutare in modo non invasivo e piacevole per i bambini il loro livello di sviluppo cognitivo, senza quella che considerava l’interferenza del linguaggio o di altri aspetti psicologici. Curiosamente questo test, nato come misura di caratteristiche cognitive, è stato poi inserito nel novero dei test proeittivi (Machover, 1949). Quando somministrato ai bambini nativi americani (o comunque quelli che Du Bois indica come Pueblo Indians), questi mostravano prestazioni nettamente inferiori a quelle dei bambini di estrazione anglosassone. Modificando però la consegna, e chiedendo di disegnare un elemento che nella cultura nativa americana era centrale, come un cavallo, ecco che i risultati si ribaltavano: ora erano i nativi ad avere prestazioni superiori! In tutti questi casi l’errore di misurazione va sempre nella stessa direzione, o a favore o a sfavore di un particolare gruppo etnico o culturale. La sfida per trovare una prova del livello intellettivo che sia realmente esente da influenze culturali (culture-free, in gergo) è ancora aperta.

1.7.2 Validità Nel commentare i risultati ottenuti, Du Bois (1939, p. 523) conclude: For Pueblo Indian children the horse drawing test seems to have greater validity as a measure of mental ability than the Goodenough.8 Questa citazione introduce l’altra proprietà psicometrica: la validità. Abbiamo visto come l’attendibilità riguardi la precisione e la ripetibilità della misurazione, ma da sola questa caratteristica non è sufﬁciente per connotare la bontà di un test psicologico, perché non ci dice se stiamo misurando ciò che davvero vogliamo misurare. Sappiamo solo che lo 8

Per i bambini nativi, il test del disegno di un cavallo sembra possedere una maggiore validità come misura delle abilità cognitive rispetto al Goodenough (Draw-a-Man test).

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 42

Capitolo 1

Che cos’è e a cosa serve la psicometria?

misuriamo con precisione. Quindi, se volessimo misurare l’altezza di un grattacielo, un barometro che fornisce misurazioni perfettamente attendibili sarebbe adatto? Il barometro non è certo la prima cosa che ci verrebbe in mente di usare per misurare una lunghezza. Quindi, al di là della precisione e ripetibilità delle misure che è in grado di fornire, ci appare come uno strumento non valido, in quanto non ci consente di misurare ciò che vogliamo misurare, anche se nell’Approfondimento 1.6 è raccontato un famoso aneddoto in cui questo sembra essere possibile. Lo stesso vale per un test psicologico: se vogliamo misurare la depressione, vogliamo essere persuasi, se non sicuri, di misurare effettivamente la depressione, e non qualcos’altro, che pure può assomigliarle. L’esame della validità di un test, o, in gergo, validazione, è dunque quella procedura che ci consente di stabilire se la misurazione ottenuta mediante il test raggiunge lo scopo per il quale lo strumento è stato sviluppato. Approfondimento 1.6 Esistono vari tipi di validità di un test psicologico (Newton e Shaw, 2013). Il primo da considerare, e per certi versi il più importante, è Misurare l’altezza di un quello legato alla validità di contenuto. Quando abbiamo parlato dei grattacielo con un barometro modelli di misurazione, abbiamo visto che la misura di un costrutto o variabile psicologica è ottenibile mediante la procedura di operazionalizzazione, ossia di definizione dei comportamenti osservabili che corrispondono alla definizione teorica del costrutto. Potenzialmente i comportamenti o item che rappresentano l’operazionalizzazione di un costrutto sono infiniti, e costituiscono quello che possiamo chiamare popolazione o universo delle operazionalizzazioni. Proprio come in un sondaggio, in cui non possiamo intervistare l’intera popolazione italiana ma solo un campione di essa, quando sviluppiamo un test psicologico ci troviamo a poter selezionare solo un numero finito di operazionalizzazioni del costrutto. La validità di contenuto indaga se il campione di operazionalizzazioni che abbiamo inserito nel test è un campione rilevante e rappresentativo dell’universo di operazionalizzazioni possibili del costrutto. In altri termini, se gli item del test sono un buon modellino in scala ridotta dell’universo di comportamenti associabili, in base alla definizione teorica, alla variabile psicologica. Se quindi definiamo l’intelligenza come “l’essere bravi in matematica”, evidentemente alcune delle prove delle scale di Wechsler (per es., un item della scala Somiglianze come “Il latte e l’acqua servono tutti e due per…” e la risposta è bere) non potranno essere considerate valide, in quanto mappano caratteristiche incongruenti con questa definizione. La validità di contenuto è un aspetto fondamentale dal punto di vista teorico, e per certi versi il più complesso da valutare, in quanto non esistono procedure statistiche specifiche che ci permettano di esaminarlo oggettivamente. L’unico modo che abbiamo per valutare la validità di contenuto è sottoporre a un pool di esperti del costrutto in esame la nostra definizione del costrutto e i modi in cui lo abbiamo operazionalizzato. Gli esperti potranno individuare difetti sia a livello di definizione del costrutto sia di coerenza delle operazionalizzazioni con il costrutto: per esempio, potrebbero osservare che il campione di item che abbiamo scelto non è rappresentativo dell’universo di item possibili per quel costrutto. In teoria questa è una valutazione che potremmo fare anche da soli in quanto, se ci è venuto in mente di sviluppare un test per misurare quel costrutto, forse qualcosa ne sappiamo, ma in ogni caso il riferirsi agli esperti consente sempre di migliorare il lavoro. Gli esperti, però, non dovrebbero essere il nostro unico interlocutore esterno al gruppo di ricerca, perché non dobbiamo dimenticare che il test psicologico verrà somministrato a persone che con ogni probabilità non hanno studiato psicologia, e dunque possono avere una percezione degli item diversa da quella che presuppongono gli autori del test. Pensiamo al caso di un item del tipo “Penso di essere una persona assertiva”. Gli psicologi hanno ben presente che cosa significhi essere assertivi, ossia essere capaci di sostenere le proprie

01txtI.qxp_CHIORRI_2019 11/11/19 11:16 Pagina 43

Che cos’è e a cosa serve la psicometria?

Capitolo 1

idee, pur senza prevaricare, di affermare i propri bisogni, e di riuscire a dire di no a richieste che appaiono eccessive. Ora, se le persone alle quali somministriamo il test non conoscono il significato del termine, come fanno a rispondere? Nella migliore delle ipotesi non risponderanno, o potrebbero rispondere a caso, oppure in base a ciò che il termine sembra loro significare. Pensate un po’ se qualcuno lo interpretasse come “essere uno che dice sempre di sì”: lo interpreterebbe al contrario! Il guaio è che la sua risposta rifletterebbe questa comprensione, e non quella che vogliamo noi. Allo stesso modo, che impressione ricavereste da una prova di selezione per diventare psicologi in una ASL in cui vi chiedono di fare salti mortali all’indietro? Pensereste che ciò che siete chiamati a fare non permette di misurare ciò che in teoria ci si propone, ossia la competenza clinica – mentre vi apparirebbe una prova perfettamente valida se vi fosse richiesta per essere assunti in un circo come saltimbanchi. La valutazione di queste caratteristiche prende il nome di validità di facciata, che d’acchito potrebbe sembrare un aspetto marginale, ma riflettendoci bene è pari, come importanza, a quello della validità di contenuto, perché se le persone non riescono a rispondere agli item del test, quale che sia il motivo, non ci può essere alcuna misurazione, al di là del plauso dei nostri colleghi per quanto concerne la validità di contenuto. Nella fase di sviluppo del test, quindi, è consigliabile fare delle somministrazioni di prova a un campione della popolazione alla quale il test è rivolto e, per esempio, chiedere ai partecipanti di riformulare gli item con parole loro, un po’ come quando a scuola dovevamo fare la parafrasi dei versi di una poesia, in modo da valutare se riescono a comprendere correttamente il contenuto. Non dimentichiamo che le persone rispondono a ciò che comprendono dell’item, e che se non comprendono quello che intendiamo noi non possiamo prendercela con loro, perché sta a noi, in quanto scienziati, metterli nella condizione di riuscire a rispondere. Abbiamo detto però che il test è uno strumento di misura che dovrebbe consentirci di prendere, in caso di incertezza, decisioni migliori – nel senso di più esatte – di quelle che prenderemmo tirando a indovinare. Se lo scopo del test è quello di fare previsioni, per esempio, si parla di validità di criterio. Per validità di criterio intendiamo quella caratteristica di un test psicologico che consente di valutare quanto il risultato a esso può essere utilizzato per prevedere un particolare comportamento (il criterio, appunto) di un individuo. Per criterio intendiamo una norma, o standard, o insieme di elementi su cui basare un giudizio o una decisione, ossia una misura diretta, ma esterna e indipendente dal costrutto che il test si propone di misurare, effettuata con procedure diverse e che costituisce un termine di riferimento per il test. In altri termini, vogliamo sapere quanto i punteggi a un test corrispondono ai risultati ottenuti in altre prove o comportamenti osservabili in modo indipendente dalla valutazione psicometrica. Per esempio, potremmo voler prevedere il successo scolastico di un bambino a partire dal suo punteggio a un test intellettivo o di motivazione allo studio, oppure la prestazione lavorativa di un neo-assunto in base al punteggio ottenuto a un test attitudinale impiegato al momento della selezione. La validità di criterio, in questo senso, è legata all’accuratezza delle predizioni e quindi delle decisioni che possono essere prese sulla base dei punteggi dei test. La scelta del criterio dipende dall’obiettivo che si vuole raggiungere attraverso la decisione presa utilizzando il punteggio al test. Uno stesso criterio, quindi, può essere o meno appropriato in relazione alla funzione che il test intende individuare. Se per esempio sviluppiamo un test per la misura dell’ansia, non è la stessa cosa svilupparlo per cercare di individuare le persone con un disturbo d’ansia in base alle risposte agli item del test oppure per valutare il grado di ansia delle persone. Nel primo caso, infatti, lo scopo viene raggiunto individuando quelle risposte che differenziano gli in-

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 44

Capitolo 1

Che cos’è e a cosa serve la psicometria?

dividui con un disturbo d’ansia da quelli che non ce l’hanno (in gergo, screeening): per questo, qualunque aspetto che differenzi i due gruppi può andar bene. In teoria, potremmo scoprire che chi ha un disturbo d’ansia possiede con maggiore frequenza un acquario, piuttosto che ami con maggiore probabilità una certa marca di dentifricio invece di un’altra. A livello superficiale, questo non ci aiuta ad approfondire la nostra conoscenza del disturbo, ma se raggiunge lo scopo la sua utilità clinica è indubbia. Se però siamo interessati a ottenere una quantificazione del grado di ansia delle persone, indipendentemente dalla loro condizione clinica, questa strategia di misurazione potrebbe non funzionare (anzi, sarebbe controproducente). Una procedura psicometrica abbastanza tipica in psicologia clinica prevede di sviluppare il test e di somministrarlo a persone con e senza disturbo d’ansia e di valutare se le risposte agli item, oltre che il punteggio totale, permettono di distinguere i componenti del gruppo clinico da quelli del gruppo non clinico. In questo caso il criterio è la diagnosi, che, come è facilmente intuibile, deve essere stata realizzata indipendentemente dal punteggio al test. In questo senso, quando somministriamo il test a una persona della quale non conosciamo ancora la condizione clinica, in base al punteggio del test possiamo ottenere un’informazione rilevante, ossia sapere se rientra con maggiore probabilità nella distribuzione di punteggi del campione di pazienti o in quella della popolazione generale (Fig.1.15). In ogni caso, questa informazione va comunque integrata con quella proveniente dalle altre procedure di valutazione clinica, perché il punteggio al test psicologico da solo non può essere utilizzato per realizzare una diagnosi. Si noti dalla figura che c’è una gamma di punteggi in cui le due distribuzioni sono sovrapposte: le persone che ottengono punteggi in questo intervallo, ovviamente, non possono essere classificate con la stessa sicurezza con cui classificheremmo come appartenente alla popolazione generale una persona che ha ottenuto un punteggio molto basso o come appartenente alla popolazione dei pazienti una persona che ha ottenuto un punteggio molto alto. Potremmo però anche realizzare un test che somministrato oggi potrebbe aiutarci a prevedere se le persone potranno sviluppare in futuro un disturbo d’ansia. Per quanto difficile da attuare (dovremmo somministrare il test a molte persone e poi dovremmo trovare il modo di avere informazioni circa il loro livello di ansia futuro), questa caratteristica renderebbe il test utilissimo in fase di prevenzione. Allo stesso modo, potremmo pensare di sviluppare un test che ci permetta di sapere se le persone hanno avuto in passato un disturbo d’ansia, ora risolto. Possiamo quindi individuare tre diversi tipi di validità di criterio: concorrente, predittiva e postdittiva. Nel caso della validità concorrente misura del costrutto e criterio sono rilevati contemporaneamente e funzionalmente connessi, mentre nel caso della validità

Popolazione generale Pazienti Punteggio alto

Punteggio basso Ansia di tratto misurata dal test

Figura 1.15 Distribuzione dei punteggi a un test di screening per l’ansia in un campione della popolazione generale e di pazienti con diagnosi di disturbo d’ansia.

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 45

Che cos’è e a cosa serve la psicometria?

Capitolo 1

predittiva il criterio viene misurato successivamente alla rilevazione della misura ed è da questa predetto o spiegato. Guion e Cranny (1982) sostengono che la differenza fra questi due tipi di validità di criterio non risiede tanto nel momento in cui vengono rilevati i punteggi, quanto nel fatto che la validità predittiva è ottenuta in un campione casuale della popolazione rispetto alla quale si dovranno prendere delle decisioni, mentre la validità concorrente è ottenuta in un gruppo preselezionato di persone che già differisce sistematicamente dalla popolazione generale. La validità postidittiva individua, infine, il grado in cui i punteggi a un test sono in relazione con un criterio che consiste in un evento accaduto nel passato. Per esempio, un test che misura oggi il grado di esposizione di un bambino ad abuso sessuale nel passato – avendo logicamente la possibilità di verificare in modo indipendente che l’abuso sia effettivamente verificato oppure no. Proprio per le sue implicazioni a livello delle decisioni che vengono prese riguardo alla persone (assumere o no un candidato, considerare una persona a rischio di un certo disturbo oppure no ecc.), la valutazione della validità di criterio deve essere molto accurata, dal momento che un errore potrebbe avere costi sociali, morali e finanziari elevati – al netto del fatto che una singola misura psicometrica non deve mai essere impiegata da sola per prendere questo tipo di decisioni, ma integrata con altre informazioni raccolte con altre procedure. A questo proposito, alcuni autori hanno recentemente proposto un tipo di validità connesso alla validità di criterio e detto validità incrementale (per una rassegna dettagliata, vedi Hunsley e Meyer, 2003, e il numero speciale di Psychological Assessment in cui questo articolo è contenuto), che è il contributo che il test può portare nel migliorare la predizione di un criterio teoricamente o clinicamente rilevante nel momento in cui è utilizzato insieme ad altre misure. In altri termini, la validità incrementale dovrebbe permettere di valutare se l’inserimento o meno del test in una batteria aumenta la capacità predittiva dell’intero set di strumenti. Potremmo chiederci, per esempio, se la valutazione delle caratteristiche di personalità aumenterebbe sostanzialmente la nostra capacità di predire il successo accademico se venisse aggiunta a quella della motivazione allo studio e delle abilità cognitive. La validità di criterio ha una forte impronta pragmatica che, come abbiamo visto in precedenza, potrebbe scotomizzare gli aspetti teorici del test come strumento di misura di un costrutto operazionalmente definito. In un fondamentale articolo pubblicato nel 1955 sul Psychological Bulletin, Lee J. Cronbach e Paul E. Meehl parlano di quattro tipi di validazione: predittiva, concorrente, di contenuto e di costrutto. Delle prime tre abbiamo già detto, mentre l’ultima rappresenta un elemento relativamente nuovo. Secondo gli Autori, è quel tipo di validità che viene chiamato in causa ogniqualvolta un test deve essere interpretato come misura di un qualche attributo o qualità che non è operazionalmente definito. Ossia, deve rispondere alla domanda: “Quale costrutto spiega la prestazione al test della persona?”. La validità di criterio, in questo senso, riguarda l’accettazione di una serie di operazionalizzazioni non necessariamente connesse con una teoria come strumento per la presa di decisioni. Tuttavia, questo implica che il criterio sia chiaramente definito e misurabile al massimo grado di precisione possibile: se uno studente viene o meno promosso è facilmente verificabile, ma come la mettiamo con costrutti come, per esempio, la vulnerabilità narcisistica? Da cosa vedo che una persona possiede questa caratteristica? Nel caso della validità di contenuto, dall’altra parte, è fondamentale concordare sull’universo delle operazionalizzazioni possibili per quel costrutto, da cui si campionerà per generare gli item del test. Ma anche questo è tutt’altro che scontato, poiché si potrebbe non essere d’accordo sulla definizione del costrutto, che è ciò che definisce i confini dell’universo delle operazionalizzazioni. La validità di costrutto può allora essere definita come la validità in

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 46

Capitolo 1

Che cos’è e a cosa serve la psicometria?

rapporto a una funzione, in cui l’interesse del ricercatore è concentrato sul tratto o sulla qualità misurata e ha come scopo principale il valutare la connessione del test con la struttura teorica e concettuale delle funzioni da esso misurate. Di fatto, quindi, consiste in un giudizio sull’appropriatezza di deduzioni effettuate a partire dai punteggi di un test che misura un determinato costrutto, ossia se il test misura effettivamente il costrutto che intende misurare. Per costrutto, anche in questo caso, si intende una costruzione o struttura scientifica, teorica, una categoria astratta, un’idea utilizzata per descrivere o spiegare un comportamento e per fare dei collegamenti logici. La validità di costrutto viene esaminata formulando una serie di ipotesi, basate sulla natura della variabile da valutare, riguardanti le predizioni che il punteggio al test consente sulle prestazioni della persona in altri test. Dai risultati che si ottengono è possibile sviluppare una teoria sulla natura del costrutto che il test dovrebbe misurare. Il successo di questo lavoro è rappresentato dal poter affermare che il test misura un costrutto che è: similar enough to other [concepts] to be recognizable, but different enough to be worth studying” (Mayer, 2000, p. 49).9 In questa citazione sono racchiusi i due tipi di validità costrutto che devono essere valutati dallo sviluppatore del test, ossia la validità di costrutto convergente e quella discriminante. La validità di costrutto convergente rappresenta una misura del grado di accordo fra misure dello stesso costrutto – preferibilmente ottenute con metodi di somministrazione diversi – mentre la validità di costrutto discriminante (a volte indicata come divergente) riflette il grado in cui misure di costrutti diversi siano effettivamente distinguibili l’una dall’altra. Anche in questo caso ci può essere utile un esempio tratto dalla clinica. Se uno degli obiettivi della valutazione della persona è ottenere una misura del grado di depressione, lo strumento che viene utilizzato dovrebbe fornire punteggi coerenti con altri strumenti che misurano lo stesso costrutto, ma allo stesso tempo relativamente meno concordi con misure di costrutti affini, come l’ansia, che rappresentano aspetti non del tutto estranei a quello in esame, ma non precisamente ciò che si intende misurare. Presi tutti insieme, questi tipi di validità possono essere compattati nel concetto più generale di rete nomologica (Cronbach e Meehl, 1955), che in ultima analisi dovrebbe permetterci di chiarire una volta per tutte che cosa il costrutto è, ossia stabilire le relazioni esistenti fra le sue proprietà osservabili, le relazioni che legano queste proprietà al costrutto e le relazioni che sussistono fra il costrutto e altri costrutti concettualmente distinti. Perché il costrutto sia scientificamente plausibile è necessario che almeno alcune di queste relazioni coinvolgano elementi osservabili. Logicamente, quando viene definito un nuovo costrutto, la rete nomologica che lo riguarda potrà essere relativamente ristretta, ma sarà compito della ricerca quello di estenderla o, se necessario, ridurla al fine di riuscire a predire il comportamento degli individui in base ai punteggi al test. Nondimeno, è fondamentale che vi sia accordo sia sulla definizione del costrutto sia sulla rete nomologica che lo riguarda: se uno psicologo considera l’aggressività come atti comportamentali aggressivi manifesti mentre un altro come reazioni di ostilità implicita, difficilmente potrà esservi concordanza sulla validità delle misure di uno stesso test, che potrebbe non cogliere i due aspetti. I vari tipi di validità sono riassunti nella Tabella 1.4.

Sufﬁcientemente simile ad altri (concetti) per essere riconoscibile, ma abbastanza diverso perché ne sia valsa la pena studiarlo.

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 47

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Tabella 1.4 Tipi di validità di un test psicologico. Tipo

Descrizione

Contenuto

Grado in cui gli item sono un campione rappresentativo e rilevante dell’universo di comportamenti che si vuole misurare

Facciata

Grado in cui gli item sembrano misurare il costrutto che intendono misurare

Criterio

Grado di associazione tra la misura del costrutto tramite lo strumento e le misure di altri comportamenti utilizzati come criteri di riferimento esterno

Concorrente

Grado in cui i punteggi a un test sono in relazione con un criterio consistente in un evento o comportamento osservabile nell'immediato

Predittiva

Grado in cui i punteggi a un test sono in relazione con un criterio consistente in un evento o comportamento osservabile in futuro

Postdittiva

Grado in cui i punteggi a un test sono in relazione con un criterio consistente in un evento o comportamento accaduto nel passato

Incrementale

Grado in cui il test contribuisce nel migliorare la predizione di un criterio teoricamente o clinicamente rilevante nel momento in cui è utilizzato insieme ad altre misure

Costrutto

Grado di connessione del test con la struttura teorica e concettuale delle funzioni da esso misurate

Convergente

Grado di correlazione tra misure diverse dello stesso costrutto

Discriminante

Mancanza di correlazione tra la misura del costrutto e misure di costrutti diversi

Nomologica

Grado in cui il costrutto si inserisce in una serie di relazioni predittive con costrutti affini e con criteri di riferimento (“reti di relazioni”)

In conclusione, possiamo riassumere i concetti di attendibilità e validità di un test immaginando che la prestazione del test nella misura del costrutto possa essere equiparata a quella di un arciere che deve centrare un bersaglio con più frecce, come nella Figura 1.16.

Valido

Non valido

Attendibile

(a)

(b)

(c)

(d)

Non attendibile

Figura 1.16 Le possibili combinazioni delle caratteristiche psicometriche di un test psicologico. Per la spiegazione vedi il testo.

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 48

Capitolo 1

Che cos’è e a cosa serve la psicometria?

Il caso (a) è quello di un test è che è sia valido sia attendibile, in quanto coglie nel centro del bersaglio (misura ciò che intende misurare) e nel contempo è stabile nella prestazione (ripetibilità delle misurazioni, con scarse fluttuazioni). Il caso (b), invece, è quello di un test che è sì stabile nella prestazione, ma non è valido, in quanto non coglie nel centro del bersaglio: potrebbe essere questo il caso di un test che intende misurare l’atteggiamento nei confronti degli immigrati ma che soffre di distorsioni dovute alla desiderabilità sociale: le persone sono sì stabili nelle loro risposte, ma queste non riflettono tanto il loro reale atteggiamento nei confronti degli immigrati, quanto il loro desiderio di mostrarsi, attraverso le risposte che forniscono, in un modo che ritengono socialmente accettabile. Il caso (c) è quello di un test valido, perché più o meno coglie nel centro del bersaglio, ma poco attendibile: la misura evidentemente risente di troppe fluttuazioni, che possono essere dovute a molteplici fattori, come abbiamo visto. Potrebbe essere il caso di un test che misura il profilo dell’umore, ossia una caratteristica transitoria delle persone suscettibile di variare rapidamente. Il caso (d), infine, è quello di un test che non è né valido né attendibile, perché non è né stabile nella prestazione, né permette di misurare ciò che si intende misurare. Se i test che hanno le caratteristiche dei casi (b) e (c) possono comunque essere utilizzati, pur con la consapevolezza dei loro limiti; un test con le caratteristiche del caso (d) non dovrebbe essere preso in considerazione.

Domande ed esercizi di verifica

Tutte le soluzioni sul sito web del volume

Domande di teoria 1. 2. 3. 4. 5. 6. 7. 8. 9. 10. 11. 12. 13. 14. 15. 16. 17. 18. 19.

Che cos’è un’ipotesi di ricerca? Che differenza c’è tra un approccio correlazionale e uno sperimentale? Che cos’è una variabile? E una costante? Che cosa sono le unità di analisi? Quali sinonimi possono essere utilizzati per questo termine? Che cos’è un costrutto? Come facciamo a misurarlo? In cosa consiste l’operazionalizzazione? Che cos’è il dominio di contenuto di un costrutto? Che cos’è un modello di misurazione? Da quali elementi è costituito? Quanti tipi ne esistono? Quali sono le proprietà della misurazione su scala nominale? Quali sono le proprietà della misurazione su scala ordinale? Quali sono le proprietà della misurazione su scala a intervalli equivalenti? Quali sono le proprietà della misurazione su scala a rapporti equivalenti? Perché i test psicologici sono detti anche “reattivi” mentali? Quali sono le quattro grandi categorie di misure del comportamento? In cosa consistono? Cos’è un test psicologico? Come è fatto un test psicologico? Quali parti lo compongono? Cosa si intende per “scoring” di un test? Quali sono i vari tipi di test di prestazione massima? Quali caratteristiche misurano? Su quali presupposti teorici erano basati i primi test di intelligenza? Che cosa si intende per “quoziente intellettivo”?

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 49

Che cos’è e a cosa serve la psicometria?

20. 21. 22. 23. 24. 25. 26. 27. 28. 29. 30. 31. 32.

Capitolo 1

Quali sono i vari tipi di test di prestazione tipica? Quali caratteristiche misurano? Che differenza c’è fra una scala Likert e una scala di tipo Likert? Che cos’è un differenziale semantico? Su quali presupposti teorici sono basati i test proiettivi? Perché sono spesso utilizzati in luogo di quelli auto-somministrati? Quali sono le proprietà psicometriche di un test psicologico? Che cos’è l’errore di misurazione? Quanti tipi ne esistono? Cosa si intende per “punteggio vero” di una misurazione? Che cos’è l’attendibilità di un test psicologico? In base a quale caratteristica un test psicologico è detto “culture-free”? Cosa si intende per “validità” di un test psicologico? Che differenza c’è fra validità di contenuto e di facciata di un test psicologico? Che differenza c’è fra validità di criterio e di costrutto di un test psicologico? Quali sottotipi esistono di validità di criterio e di validità di costrutto? Cosa si intende per “rete nomologica” di un test psicologico?

Esercizi 1. 2.

Individuare almeno tre diverse variabili misurate su ognuna delle scale di misura di Stevens. Scarica il materiale didattico di questo esercizio dal sito web del volume e prova a individuare la scala di misura delle variabili in esso contenute.

01txtI.qxp_CHIORRI_2019 11/11/19 11:17 Pagina 50